字节跳动的大模型/Agent评测工程师-飞书Aily薪资是多少？

该职位薪资范围为 25k–40k（人民币/月）。

大模型/Agent评测工程师-飞书Aily的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

字节跳动的大模型/Agent评测工程师-飞书Aily有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型/Agent评测工程师-飞书Aily

立即应聘

大模型/Agent评测工程师-飞书Aily

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

中级经验

全职员工

仅现场办公

本科

软件工程

Agentbench

Agent评测

Code Agent

Gaia

分布式评测

大模型评测

安全评测

工具调用

评测平台

AI 估算 · 25k–40k

大模型领域热门，字节跳动薪资具有竞争力，杭州生活成本适中。

职位详情

关于这个职位

这是字节跳动飞书Aily团队的大模型/Agent评测工程师岗位，主要负责设计与研发通用Agent和Code Agent的评测体系，构建面向业务场景的评测方法，并研发评测框架与平台

你将深入理解大模型与Agent的能力边界，通过系统化评测驱动模型迭代，对AI技术的落地质量至关重要

最低要求

计算机科学、人工智能、软件工程等相关专业，本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解，熟悉大模型与Agent的常见评测方法

对主流LLM/Agent评测体系有较好理解，如GAIA、AgentBench等，能够基于评测结果进行结构化分析

具备良好的工程基础，能够参与或主导评测框架、工具或平台的设计与实现

具备良好的业务理解能力、沟通与协作能力，逻辑思维清晰，学习能力强，能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法，支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系，将真实业务流程抽象为可复现、可扩展的评测用例

负责整体评测体系与评测框架的设计与演进，支持大规模、高效率的分布式评测执行

研发大模型与Agent的评测框架与评测平台，支持评测流程标准化、评测结果分析与可视化展示

设计并维护评测指标体系，覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度

负责评测数据、评测样本与Benchmark的建设与治理，保障评测结果的客观性与可复现性

基于评测结果进行分析与诊断，定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题，并输出改进建议

AI 洞察

优缺点分析

优点

身处大模型一线，直接参与前沿技术迭代，技能积累价值高
字节跳动平台大，资源丰富，项目影响力广，为履历加分
评测岗稀缺，竞争相对算法岗小，稳定性和成长性兼备
评测工作涉及大量工程开发与业务沟通，对综合能力要求高
互联网大厂工作节奏快，项目周期紧，可能需要承担一定强度加班
适合对AI大模型有浓厚兴趣、擅长工程化思维与系统设计、能在快节奏中保持学习的工程师

缺点 / 挑战

大模型技术迭代快，需要持续学习，知识更新压力大

角色解读

向大模型评测专家或AI质量保障负责人发展，成为算法-评测交叉领域权威
横向扩展至模型训练、推理优化等方向，转向算法研发岗
在字节跳动内部跨团队流动，进入飞书其他AI产品或字节系AI平台
设计和研发大模型与Agent的评测体系、方法和工具，确保模型迭代方向正确
将真实业务场景抽象为可复现的评测用例，构建场景化评测体系
开发和维护分布式评测平台，支持大规模高效评测执行，并对结果进行可视化分析
基于评测结果诊断模型在推理、规划、工具调用等环节的问题，输出改进建议
深入理解主流大模型的原理、能力边界和应用场景，熟悉LLM/Agent评测方法
掌握主流评测体系如GAIA、AgentBench，能基于结果进行结构化分析
具备扎实的工程能力，能设计实现评测框架、工具或平台
优秀的业务理解和沟通协作能力，推动评测体系落地

申请策略

投递时附上你对大模型评测体系的个人理解短文，展示专业热情
关注字节飞书Aily团队的技术博客和开源项目，面试时展现对业务方向的了解
突出你对大模型原理和评测方法的深度理解，附上相关项目或研究经历
展示你设计或参与过的评测框架、平台或工具，量化效果和规模
强调你在分布式系统、大数据处理、可视化等方面的工程能力
如果有开源贡献、技术博客或竞赛经历，加分项务必列出
动手实践主流LLM评测框架如lm-evaluation-harness、AgentBench等
系统学习大模型基本原理（Transformer、RLHF、Prompt Engineering等）

面试指南

先定义问题边界和评测目标，再拆解维度（能力、稳定性、安全性等），最后给出具体指标和方法
使用STAR法则：情境（Situation）、任务（Task）、行动（Action）、结果（Result）来阐述项目经验
对于开放性问题，先给出总体框架，再举例说明，展示系统性思维
请设计一个大模型推理能力的评测方案
如何保证评测结果的可复现性和客观性？
你对GAIA和AgentBench评测体系的理解是什么？它们的优缺点是什么？
描述一个你遇到过的评测难点，以及你是如何解决的
在大模型评测中，如何平衡覆盖率和效率？

职位点评

综合评分

字节跳动大模型评测岗，前沿技术栈，高薪资，工作强度大。

更适合这类人

适合追求前沿技术成长、愿意在高强度环境中快速提升自己的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值75

薪资福利

85较高

字节跳动作为头部互联网公司，薪资待遇处于行业领先水平，但未在JD中明确具体薪资范围。

薪资信号未披露（AI估算：25K-40K/月）

成长发展

90较高

该岗位聚焦大模型与Agent评测这一前沿领域，技术成长空间巨大，但JD未明确提及晋升或培训机制。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、评测体系、分布式

业务类型ambiguous

工作生活

40较低

字节跳动工作节奏较快，项目周期紧张，可能涉及一定程度的加班，且未提及远程或弹性办公。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

75中等

大模型领域处于高速增长期，评测工作对AI质量保障有重要意义，但社会影响力较为中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型/Agent评测工程师-飞书Aily

立即应聘

大模型/Agent评测工程师-飞书Aily

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

中级经验

全职员工

仅现场办公

本科

软件工程

Agentbench

Agent评测

Code Agent

Gaia

分布式评测

大模型评测

安全评测

工具调用

评测平台

AI 估算 · 25k–40k

大模型领域热门，字节跳动薪资具有竞争力，杭州生活成本适中。

职位详情

关于这个职位

你将深入理解大模型与Agent的能力边界，通过系统化评测驱动模型迭代，对AI技术的落地质量至关重要

最低要求

计算机科学、人工智能、软件工程等相关专业，本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解，熟悉大模型与Agent的常见评测方法

对主流LLM/Agent评测体系有较好理解，如GAIA、AgentBench等，能够基于评测结果进行结构化分析

具备良好的工程基础，能够参与或主导评测框架、工具或平台的设计与实现

具备良好的业务理解能力、沟通与协作能力，逻辑思维清晰，学习能力强，能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法，支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系，将真实业务流程抽象为可复现、可扩展的评测用例

负责整体评测体系与评测框架的设计与演进，支持大规模、高效率的分布式评测执行

研发大模型与Agent的评测框架与评测平台，支持评测流程标准化、评测结果分析与可视化展示

设计并维护评测指标体系，覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度

负责评测数据、评测样本与Benchmark的建设与治理，保障评测结果的客观性与可复现性

基于评测结果进行分析与诊断，定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题，并输出改进建议

AI 洞察

优缺点分析

优点

身处大模型一线，直接参与前沿技术迭代，技能积累价值高
字节跳动平台大，资源丰富，项目影响力广，为履历加分
评测岗稀缺，竞争相对算法岗小，稳定性和成长性兼备
评测工作涉及大量工程开发与业务沟通，对综合能力要求高
互联网大厂工作节奏快，项目周期紧，可能需要承担一定强度加班
适合对AI大模型有浓厚兴趣、擅长工程化思维与系统设计、能在快节奏中保持学习的工程师

缺点 / 挑战

大模型技术迭代快，需要持续学习，知识更新压力大

角色解读

向大模型评测专家或AI质量保障负责人发展，成为算法-评测交叉领域权威
横向扩展至模型训练、推理优化等方向，转向算法研发岗
在字节跳动内部跨团队流动，进入飞书其他AI产品或字节系AI平台
设计和研发大模型与Agent的评测体系、方法和工具，确保模型迭代方向正确
将真实业务场景抽象为可复现的评测用例，构建场景化评测体系
开发和维护分布式评测平台，支持大规模高效评测执行，并对结果进行可视化分析
基于评测结果诊断模型在推理、规划、工具调用等环节的问题，输出改进建议
深入理解主流大模型的原理、能力边界和应用场景，熟悉LLM/Agent评测方法
掌握主流评测体系如GAIA、AgentBench，能基于结果进行结构化分析
具备扎实的工程能力，能设计实现评测框架、工具或平台
优秀的业务理解和沟通协作能力，推动评测体系落地

申请策略

投递时附上你对大模型评测体系的个人理解短文，展示专业热情
关注字节飞书Aily团队的技术博客和开源项目，面试时展现对业务方向的了解
突出你对大模型原理和评测方法的深度理解，附上相关项目或研究经历
展示你设计或参与过的评测框架、平台或工具，量化效果和规模
强调你在分布式系统、大数据处理、可视化等方面的工程能力
如果有开源贡献、技术博客或竞赛经历，加分项务必列出
动手实践主流LLM评测框架如lm-evaluation-harness、AgentBench等
系统学习大模型基本原理（Transformer、RLHF、Prompt Engineering等）

面试指南

先定义问题边界和评测目标，再拆解维度（能力、稳定性、安全性等），最后给出具体指标和方法
使用STAR法则：情境（Situation）、任务（Task）、行动（Action）、结果（Result）来阐述项目经验
对于开放性问题，先给出总体框架，再举例说明，展示系统性思维
请设计一个大模型推理能力的评测方案
如何保证评测结果的可复现性和客观性？
你对GAIA和AgentBench评测体系的理解是什么？它们的优缺点是什么？
描述一个你遇到过的评测难点，以及你是如何解决的
在大模型评测中，如何平衡覆盖率和效率？

职位点评

综合评分

字节跳动大模型评测岗，前沿技术栈，高薪资，工作强度大。

更适合这类人

适合追求前沿技术成长、愿意在高强度环境中快速提升自己的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值75

薪资福利

85较高

字节跳动作为头部互联网公司，薪资待遇处于行业领先水平，但未在JD中明确具体薪资范围。

薪资信号未披露（AI估算：25K-40K/月）

成长发展

90较高

该岗位聚焦大模型与Agent评测这一前沿领域，技术成长空间巨大，但JD未明确提及晋升或培训机制。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、评测体系、分布式

业务类型ambiguous

工作生活

40较低

字节跳动工作节奏较快，项目周期紧张，可能涉及一定程度的加班，且未提及远程或弹性办公。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

75中等

大模型领域处于高速增长期，评测工作对AI质量保障有重要意义，但社会影响力较为中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型/Agent评测工程师-飞书Aily

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型/Agent评测工程师-飞书Aily

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI Engineer

Java高级开发工程师

高级软件开发工程师（配送引擎数据）

Java高级/资深研发工程师-营销方向(北京/上海)

金融增长算法工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI Engineer

Java高级开发工程师

高级软件开发工程师（配送引擎数据）

Java高级/资深研发工程师-营销方向(北京/上海)

金融增长算法工程师

字节跳动的其他在招职位

字节跳动的其他在招职位