字节跳动的大模型/Agent评测工程师-飞书Aily薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

大模型/Agent评测工程师-飞书Aily的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的大模型/Agent评测工程师-飞书Aily有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型/Agent评测工程师-飞书Aily

立即应聘

大模型/Agent评测工程师-飞书Aily

发布于 2 天前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

分布式系统

自动化测试

LLM

AI测试

大模型

评测体系

AI 估算 · 30k–50k

字节跳动大模型岗位薪资较高，上海研发岗月薪30-50K，15薪，技术难度大、前沿赛道，薪资有竞争力。

职位详情

关于这个职位

该职位主要负责设计大模型与Agent的评测体系，开发自动化评测框架和平台，支撑模型持续迭代

工作内容包括构建场景化评测用例、分析评测结果并输出改进建议，需要同时具备AI技术理解和工程实现能力

最低要求

计算机科学、人工智能、软件工程等相关专业，本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解，熟悉大模型与Agent的常见评测方法

对主流LLM/Agent评测体系有较好理解，如GAIA、AgentBench等，能够基于评测结果进行结构化分析

具备良好的工程基础，能够参与或主导评测框架、工具或平台的设计与实现

具备良好的业务理解能力、沟通与协作能力，逻辑思维清晰，学习能力强，能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法，支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系，将真实业务流程抽象为可复现、可扩展的评测用例

负责整体评测体系与评测框架的设计与演进，支持大规模、高效率的分布式评测执行

研发大模型与Agent的评测框架与评测平台，支持评测流程标准化、评测结果分析与可视化展示

设计并维护评测指标体系，覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度

负责评测数据、评测样本与Benchmark的建设与治理，保障评测结果的客观性与可复现性

基于评测结果进行分析与诊断，定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题，并输出改进建议

AI 洞察

优缺点分析

优点

身处大模型前沿赛道，接触顶级AI技术和应用场景，成长迅速
字节跳动平台资源丰富，薪资待遇优厚，技术氛围浓厚
工作内容兼具技术深度与广度，既涉及AI研究又涉及工程实现，能力提升全面
大模型领域技术迭代极快，需要持续学习，保持知识更新
适合对大模型技术有热情、喜欢解决复杂评测问题、具备较强工程和沟通能力的AI从业者

缺点 / 挑战

评测体系从零到一建设，工作挑战大，需要较强的独立思考和问题解决能力
涉及跨团队协作，沟通成本较高，需推动不同团队达成共识

角色解读

在AI评测领域深耕，成为大模型质量保障专家，负责整个评测体系设计
向AI研发方向拓展，从评测分析转向模型调优与Agent开发，成为全栈AI工程师
晋升技术管理岗，带领评测团队，推动公司级AI质量文化建设
设计和构建大模型与Agent的自动化评测体系，包括评测方法、指标、流程等
将真实业务场景抽象为可复现的评测用例，确保评测结果能反映模型在实际应用中的表现
开发评测框架和平台，支持大规模分布式评测执行，并对结果进行可视化和分析
基于评测结果定位模型问题，输出改进建议，推动模型迭代优化
扎实的AI知识，深入理解主流大模型原理、能力边界及评测方法
熟悉LLM/Agent评测体系（如GAIA、AgentBench）并能进行结构化分析
良好的工程能力，能主导或参与评测框架设计与实现，掌握Python及分布式计算
具备业务理解与沟通协作能力，逻辑清晰，能推动评测落地

申请策略

在面试中展示你对评测体系的系统思考，可以准备一个评测方案设计案例
关注字节跳动技术博客和开源项目，了解其技术偏好
突出大模型或Agent相关项目经验，尤其是评测或质量保障方面的成果
强调工程实现能力，如设计过自动化测试框架、分布式系统等，附上GitHub链接
展示对主流评测体系（如GAIA、AgentBench）的理解，最好有实际使用的经验
体现业务理解能力，如将真实场景抽象为测试用例的案例
深入研究和实践现有LLM/Agent评测工具和方法
提升分布式系统和数据处理能力，学习Spark、Ray等框架

面试指南

系统化思考：先明确目标，再设计指标和流程，最后考虑工程实现
结合具体案例：用STAR法则（情境、任务、行动、结果）展示你的实践经验
评估与迭代：强调评测体系需要持续优化，根据反馈调整
如何设计一个针对Code Agent的评测方案？请举例说明
如何评估大模型的工具调用能力？有哪些指标？
如果评测结果与预期不符，你会如何分析并定位问题？
你使用过哪些LLM评测框架？比较它们的优缺点
在分布式评测中如何保证结果的准确性和一致性？

职位点评

综合评分

字节大模型评测岗，前沿技术、薪资优厚，但工作强度大、WLB一般。

更适合这类人

适合追求技术成长和高薪、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值60

薪资福利

80较高

字节跳动为已上市巨头，薪资水平处于行业高位，福利完善，但未在JD明确列出具体福利。

薪资信号偏高 (30K-50K/月)

成长发展

90较高

该职位处于大模型前沿领域，工作内容涉及评测体系设计与研发，技术成长空间极大。但JD未明确提及晋升通道或培训。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、评测体系、分布式系统

业务类型profit_center

工作生活

40较低

字节跳动工作强度较大，JD未提及WLB相关政策，上海办公室位于市区但需现场办公。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

大模型行业处于高速增长期，岗位社会影响力中性，JD未提及使命感相关内容。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型/Agent评测工程师-飞书Aily

立即应聘

大模型/Agent评测工程师-飞书Aily

发布于 2 天前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

分布式系统

自动化测试

LLM

AI测试

大模型

评测体系

AI 估算 · 30k–50k

字节跳动大模型岗位薪资较高，上海研发岗月薪30-50K，15薪，技术难度大、前沿赛道，薪资有竞争力。

职位详情

关于这个职位

该职位主要负责设计大模型与Agent的评测体系，开发自动化评测框架和平台，支撑模型持续迭代

工作内容包括构建场景化评测用例、分析评测结果并输出改进建议，需要同时具备AI技术理解和工程实现能力

最低要求

计算机科学、人工智能、软件工程等相关专业，本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解，熟悉大模型与Agent的常见评测方法

对主流LLM/Agent评测体系有较好理解，如GAIA、AgentBench等，能够基于评测结果进行结构化分析

具备良好的工程基础，能够参与或主导评测框架、工具或平台的设计与实现

具备良好的业务理解能力、沟通与协作能力，逻辑思维清晰，学习能力强，能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法，支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系，将真实业务流程抽象为可复现、可扩展的评测用例

负责整体评测体系与评测框架的设计与演进，支持大规模、高效率的分布式评测执行

研发大模型与Agent的评测框架与评测平台，支持评测流程标准化、评测结果分析与可视化展示

设计并维护评测指标体系，覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度

负责评测数据、评测样本与Benchmark的建设与治理，保障评测结果的客观性与可复现性

基于评测结果进行分析与诊断，定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题，并输出改进建议

AI 洞察

优缺点分析

优点

身处大模型前沿赛道，接触顶级AI技术和应用场景，成长迅速
字节跳动平台资源丰富，薪资待遇优厚，技术氛围浓厚
工作内容兼具技术深度与广度，既涉及AI研究又涉及工程实现，能力提升全面
大模型领域技术迭代极快，需要持续学习，保持知识更新
适合对大模型技术有热情、喜欢解决复杂评测问题、具备较强工程和沟通能力的AI从业者

缺点 / 挑战

评测体系从零到一建设，工作挑战大，需要较强的独立思考和问题解决能力
涉及跨团队协作，沟通成本较高，需推动不同团队达成共识

角色解读

在AI评测领域深耕，成为大模型质量保障专家，负责整个评测体系设计
向AI研发方向拓展，从评测分析转向模型调优与Agent开发，成为全栈AI工程师
晋升技术管理岗，带领评测团队，推动公司级AI质量文化建设
设计和构建大模型与Agent的自动化评测体系，包括评测方法、指标、流程等
将真实业务场景抽象为可复现的评测用例，确保评测结果能反映模型在实际应用中的表现
开发评测框架和平台，支持大规模分布式评测执行，并对结果进行可视化和分析
基于评测结果定位模型问题，输出改进建议，推动模型迭代优化
扎实的AI知识，深入理解主流大模型原理、能力边界及评测方法
熟悉LLM/Agent评测体系（如GAIA、AgentBench）并能进行结构化分析
良好的工程能力，能主导或参与评测框架设计与实现，掌握Python及分布式计算
具备业务理解与沟通协作能力，逻辑清晰，能推动评测落地

申请策略

在面试中展示你对评测体系的系统思考，可以准备一个评测方案设计案例
关注字节跳动技术博客和开源项目，了解其技术偏好
突出大模型或Agent相关项目经验，尤其是评测或质量保障方面的成果
强调工程实现能力，如设计过自动化测试框架、分布式系统等，附上GitHub链接
展示对主流评测体系（如GAIA、AgentBench）的理解，最好有实际使用的经验
体现业务理解能力，如将真实场景抽象为测试用例的案例
深入研究和实践现有LLM/Agent评测工具和方法
提升分布式系统和数据处理能力，学习Spark、Ray等框架

面试指南

系统化思考：先明确目标，再设计指标和流程，最后考虑工程实现
结合具体案例：用STAR法则（情境、任务、行动、结果）展示你的实践经验
评估与迭代：强调评测体系需要持续优化，根据反馈调整
如何设计一个针对Code Agent的评测方案？请举例说明
如何评估大模型的工具调用能力？有哪些指标？
如果评测结果与预期不符，你会如何分析并定位问题？
你使用过哪些LLM评测框架？比较它们的优缺点
在分布式评测中如何保证结果的准确性和一致性？

职位点评

综合评分

字节大模型评测岗，前沿技术、薪资优厚，但工作强度大、WLB一般。

更适合这类人

适合追求技术成长和高薪、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值60

薪资福利

80较高

字节跳动为已上市巨头，薪资水平处于行业高位，福利完善，但未在JD明确列出具体福利。

薪资信号偏高 (30K-50K/月)

成长发展

90较高

该职位处于大模型前沿领域，工作内容涉及评测体系设计与研发，技术成长空间极大。但JD未明确提及晋升通道或培训。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、评测体系、分布式系统

业务类型profit_center

工作生活

40较低

字节跳动工作强度较大，JD未提及WLB相关政策，上海办公室位于市区但需现场办公。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

大模型行业处于高速增长期，岗位社会影响力中性，JD未提及使命感相关内容。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型/Agent评测工程师-飞书Aily

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型/Agent评测工程师-飞书Aily

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

税务合规专家

测试开发工程师-客服中台-北京

安全检测工程师-安全与风控

高级测试开发工程师-抖音

大模型训练存储系统专家-Seed

相似职位推荐

微信支付-大模型风控算法工程师

魔方工作室-动作生成算法工程师-角色动画方向

运动健康算法工程师-实习-2027届

Principal Algorithm Engineer

Lead Engineer, Modeling & Simulation

字节跳动 的其他在招职位

税务合规专家

测试开发工程师-客服中台-北京

安全检测工程师-安全与风控

高级测试开发工程师-抖音

大模型训练存储系统专家-Seed

相似职位推荐

微信支付-大模型风控算法工程师

魔方工作室-动作生成算法工程师-角色动画方向

运动健康算法工程师-实习-2027届

Principal Algorithm Engineer

Lead Engineer, Modeling & Simulation

字节跳动的其他在招职位

字节跳动的其他在招职位