字节跳动的大模型/Agent评测工程师-飞书Aily薪资是多少？

该职位薪资范围为 20k–40k（人民币/月）。

大模型/Agent评测工程师-飞书Aily的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的大模型/Agent评测工程师-飞书Aily有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型/Agent评测工程师-飞书Aily

立即应聘

大模型/Agent评测工程师-飞书Aily

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

软件工程

Agentbench

Agent评测

Gaia

代码生成

大模型

评测框架

LLM

分布式评测

AI 估算 · 20k–40k

字节跳动核心业务，大模型方向薪资领先，上海地区工程师月薪通常在20k-40k之间

职位详情

关于这个职位

该职位负责设计并研发大模型及 Agent 的评测体系与平台，支持模型迭代和业务落地

你将构建场景化评测用例、开发分布式评测框架、分析结果并定位模型问题，是保障 AI 产品质量与可靠性的关键角色

适合对大模型评测有深入理解且工程能力强的技术人才

最低要求

计算机科学、人工智能、软件工程等相关专业，本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解，熟悉大模型与Agent的常见评测方法

对主流LLM/Agent评测体系有较好理解，如GAIA、AgentBench等，能够基于评测结果进行结构化分析

具备良好的工程基础，能够参与或主导评测框架、工具或平台的设计与实现

具备良好的业务理解能力、沟通与协作能力，逻辑思维清晰，学习能力强，能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法，支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系，将真实业务流程抽象为可复现、可扩展的评测用例

负责整体评测体系与评测框架的设计与演进，支持大规模、高效率的分布式评测执行

研发大模型与Agent的评测框架与评测平台，支持评测流程标准化、评测结果分析与可视化展示

设计并维护评测指标体系，覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度

负责评测数据、评测样本与Benchmark的建设与治理，保障评测结果的客观性与可复现性

基于评测结果进行分析与诊断，定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题，并输出改进建议

AI 洞察

优缺点分析

优点

字节跳动大平台，飞书Aily核心业务，资源丰富，对个人成长有帮助
大模型和Agent是当前最前沿技术方向，积累的经验极具市场竞争力
团队技术氛围浓厚，能接触到顶级AI基础设施和业界最佳实践
薪资福利优厚，大厂标配，股票期权等激励
工作强度较大，互联网大厂加班文化可能存在
适合对AI评测有浓厚兴趣、技术功底扎实、学习能力强且能适应快节奏的求职者

缺点 / 挑战

技术迭代极快，需要持续学习新模型和评测方法，知识更新压力大
评测体系建设需要跨部门协作，沟通成本较高

角色解读

在评测领域深耕成为评测架构师或AI质量专家
横向扩展至模型训练、推理优化或Agent全栈开发
向技术管理方向发展，带领评测团队或负责AI产品线质量
设计并研发通用Agent和Code Agent的评测体系与评测方法，支撑模型与智能体迭代
构建面向不同业务域的场景化评测用例，将真实业务流程抽象为可复现、可扩展的测试
开发大规模分布式评测框架与平台，实现评测流程标准化、结果可视化
分析评测数据，定位模型在推理、规划、工具调用等环节的问题并提出改进建议
深入理解主流大模型原理、能力边界及应用场景，熟悉LLM/Agent常见评测方法
掌握AgentBench、GAIA等主流评测体系，能进行结构化分析
具备扎实的工程基础，能主导评测框架、工具或平台的设计与实现
良好的业务理解、沟通协作和逻辑思维能力，能推动评测体系落地

申请策略

提前研究飞书Aily的产品定位和AI功能，面试中展现业务理解
准备一个完整的评测方案设计案例，展示系统思维
突出大模型相关项目经验，尤其是评测体系、基准测试或Agent开发经历
强调工程能力：开发过评测框架、分布式系统或工具平台
展示对主流评测体系（如AgentBench、GAIA）的理解和实际运用
量化成果，如评测效率提升、问题发现率等指标
深入掌握一两个主流评测框架（如LangChain、HuggingFace eval）
补充分布式系统知识（如Spark、Ray）以支撑大规模评测

面试指南

采用STAR原则：情境（Situation）、任务（Task）、行动（Action）、结果（Result），结构化回答问题
对评测设计问题，从评测目标、维度、指标、数据、工具、流程六个方面系统阐述
对问题定位问题，先复现现象，再拆解可能原因（模型、数据、框架），最后逐层验证
如何设计一个通用Agent评测体系？请举例说明
你如何看待GAIA或AgentBench的优缺点？如何改进？
当评测结果与预期不符时，你如何分析和定位问题？
请描述你之前参与开发的一个评测工具/平台的架构设计
大模型在代码生成场景中常见的错误类型有哪些？如何设计针对性评测？

职位点评

综合评分

字节跳动前沿大模型评测岗，技术成长快、薪资高，但工作强度较大。

更适合这类人

该职位最适合追求技术成长、高薪酬和良好平台的求职者，对工作生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活60

使命价值70

薪资福利

85较高

薪资处于行业顶级水平，字节跳动福利完善，但JD未明确列出具体福利项。

薪资信号偏高 (20K-40K/月)

成长发展

90较高

大模型与Agent评测是前沿技术方向，职位负责核心评测体系构建，成长空间大，但JD未明确提及晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、Agent评测、LLM、AgentBench、GAIA、分布式评测、评测框架

业务类型profit_center

工作生活

60中等

工作地点在上海核心城区，但JD未明确远程办公或弹性工时，互联网大厂通常强度较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

职位聚焦技术质量保障，社会价值一般，但行业前景光明，属于高速增长赛道。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型/Agent评测工程师-飞书Aily

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

资深AgentChatBI工程师

后端开发工程师（风控）

运筹算法工程师

AI效能提升研发工程师

Industrial Engineering ES

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

资深AgentChatBI工程师

后端开发工程师（风控）

运筹算法工程师

AI效能提升研发工程师

Industrial Engineering ES

大模型/Agent评测工程师-飞书Aily

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

资深AgentChatBI工程师

后端开发工程师（风控）

运筹算法工程师

AI效能提升研发工程师

Industrial Engineering ES

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

资深AgentChatBI工程师

后端开发工程师（风控）

运筹算法工程师

AI效能提升研发工程师

Industrial Engineering ES

字节跳动的其他在招职位

字节跳动的其他在招职位