字节跳动的大模型/Agent评测工程师-飞书妙搭薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

大模型/Agent评测工程师-飞书妙搭的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

字节跳动的大模型/Agent评测工程师-飞书妙搭有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型/Agent评测工程师-飞书妙搭

立即应聘

大模型/Agent评测工程师-飞书妙搭

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

中级经验

全职员工

仅现场办公

本科

软件工程

分布式系统

数据分析

自动化测试

LLM

大模型

评测体系

Gaia

Agentbench

AI 估算 · 25k–45k

大模型方向热门，字节薪资竞争力强，杭州略低于北京但整体偏高，预计月薪25k-45k。

职位详情

关于这个职位

该职位负责设计大模型与Agent的评测体系，构建标准化评测平台，支持模型迭代与业务落地

你将参与前沿AI技术验证，通过自动化评测和数据分析定位模型问题，推动评测流程智能化

适合对AI质量保障有热情的技术人才

最低要求

计算机科学、人工智能、软件工程等相关专业，本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解，熟悉大模型与Agent的常见评测方法

对主流LLM/Agent评测体系有较好理解，如GAIA、AgentBench等，能够基于评测结果进行结构化分析

具备良好的工程基础，能够参与或主导评测框架、工具或平台的设计与实现

具备良好的业务理解能力、沟通与协作能力，逻辑思维清晰，学习能力强，能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法，支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系，将真实业务流程抽象为可复现、可扩展的评测用例

负责整体评测体系与评测框架的设计与演进，支持大规模、高效率的分布式评测执行

研发大模型与Agent的评测框架与评测平台，支持评测流程标准化、评测结果分析与可视化展示

设计并维护评测指标体系，覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度

负责评测数据、评测样本与Benchmark的建设与治理，保障评测结果的客观性与可复现性

基于评测结果进行分析与诊断，定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题，并输出改进建议

AI 洞察

优缺点分析

优点

切入大模型和Agent前沿赛道，技能积累快，行业前景广阔
字节跳动平台资源丰富，可接触海量业务场景和顶尖技术团队
评测体系需要同时兼顾业务落地和技术前瞻，跨部门协作要求高
适合对AI质量保障有热情、技术功底扎实且善于跨团队协作的工程师，尤其适合希望深耕大模型方向的求职者

缺点 / 挑战

工作内容兼具工程挑战与算法深度，个人成长空间大
大模型评测技术仍在快速演进，需持续学习，知识更新压力较大
互联网大厂工作强度较高，需适应快节奏和不确定性

角色解读

成为AI评测领域的专家，主导评测体系从0到1的搭建，技术影响力辐射全团队
向大模型算法或AI infra方向横向发展，积累模型研发与部署的深度经验
晋升为技术Leader，带领团队负责评测平台的建设与演进，推动AI质量保障体系化
设计并开发大模型与Agent的评测体系，包括通用评测和场景化评测，支撑模型迭代
构建分布式评测框架与平台，实现评测流程标准化、自动化和可视化
分析评测数据，定位模型在推理、规划、工具调用等方面的问题，输出改进建议
维护评测指标体系和Benchmark，保障评测结果的客观性和可复现性
深入理解大模型原理与能力边界，熟悉LLM/Agent常见评测方法
掌握主流评测体系（如GAIA、AgentBench），能基于结果进行结构化分析
扎实的工程能力，能主导或参与评测框架、平台的设计与实现
良好的业务理解和沟通能力，能将复杂业务抽象为评测用例

申请策略

在简历中明确标注评测相关的量化成果，如提升模型准确率X%或减少回归问题Y%
面试前准备一个完整的评测方案设计案例，展示从需求分析到结果分析的全流程思考
突出大模型或Agent相关项目经验，如参与过评测体系建设或模型效果评估
展示工程能力，例如开发过自动化测试框架、分布式系统或数据处理平台
强调对主流评测方法（如GAIA、AgentBench）的理解和应用案例
体现业务抽象能力，如将实际流程转化为评测用例的经历
深入研究GAIA、AgentBench等评测标准，并动手复现部分用例
学习分布式计算框架（如Spark、Ray）和可视化工具（如Grafana），提升平台建设能力

面试指南

结构化思维：先明确评测目标（能力维度/场景），再分层设计（指标、数据、流程），最后考虑效率和可扩展性
案例驱动：用具体项目经历佐证，强调从问题分析到方案落地的闭环，突出数据驱动的决策过程
批判性思考：指出当前方法的不足并提出改进思路，展示对技术前沿的关注
请描述一下你熟悉的大模型评测体系，如何设计一个Agent的评测方案？
如何平衡评测的全面性和执行效率？举例说明
在评测中发现模型出现一致性问题时，你会如何定位和输出改进建议？
如何将复杂的业务场景抽象为可复现的自动化评测用例？
你如何看待现有评测标准（如GAIA）的局限性？如何改进？

职位点评

综合评分

大厂大模型方向，前沿技术栈与高成长性，但现场办公且强度较大。

更适合这类人

最适合追求技术成长和前沿领域探索的求职者，对薪资和WLB要求不高，愿意在快节奏中积累核心竞争力。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展90

工作生活40

使命价值65

薪资福利

70中等

薪资未在JD中明确，但字节跳动整体薪资具有竞争力，大模型方向通常偏高，但未提及具体福利，补偿性满足中等偏上。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

90较高

职位聚焦大模型与Agent前沿技术，涉及评测体系设计、分布式平台开发，技能成长空间大，是典型的新兴技术岗位。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、GAIA、AgentBench、分布式系统

业务类型ambiguous

工作生活

40较低

JD未提及远程或弹性办公，也未提及WLB福利，字节跳动通常现场办公且强度较高，生活化满足程度有限。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

65中等

大模型与Agent是当前高增长赛道，工作内容具有技术引领价值，但未明确提及社会使命或创新声明，意义感中等偏上。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型/Agent评测工程师-飞书妙搭

立即应聘

大模型/Agent评测工程师-飞书妙搭

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

中级经验

全职员工

仅现场办公

本科

软件工程

分布式系统

数据分析

自动化测试

LLM

大模型

评测体系

Gaia

Agentbench

AI 估算 · 25k–45k

大模型方向热门，字节薪资竞争力强，杭州略低于北京但整体偏高，预计月薪25k-45k。

职位详情

关于这个职位

该职位负责设计大模型与Agent的评测体系，构建标准化评测平台，支持模型迭代与业务落地

你将参与前沿AI技术验证，通过自动化评测和数据分析定位模型问题，推动评测流程智能化

适合对AI质量保障有热情的技术人才

最低要求

计算机科学、人工智能、软件工程等相关专业，本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解，熟悉大模型与Agent的常见评测方法

对主流LLM/Agent评测体系有较好理解，如GAIA、AgentBench等，能够基于评测结果进行结构化分析

具备良好的工程基础，能够参与或主导评测框架、工具或平台的设计与实现

具备良好的业务理解能力、沟通与协作能力，逻辑思维清晰，学习能力强，能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法，支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系，将真实业务流程抽象为可复现、可扩展的评测用例

负责整体评测体系与评测框架的设计与演进，支持大规模、高效率的分布式评测执行

研发大模型与Agent的评测框架与评测平台，支持评测流程标准化、评测结果分析与可视化展示

设计并维护评测指标体系，覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度

负责评测数据、评测样本与Benchmark的建设与治理，保障评测结果的客观性与可复现性

基于评测结果进行分析与诊断，定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题，并输出改进建议

AI 洞察

优缺点分析

优点

切入大模型和Agent前沿赛道，技能积累快，行业前景广阔
字节跳动平台资源丰富，可接触海量业务场景和顶尖技术团队
评测体系需要同时兼顾业务落地和技术前瞻，跨部门协作要求高
适合对AI质量保障有热情、技术功底扎实且善于跨团队协作的工程师，尤其适合希望深耕大模型方向的求职者

缺点 / 挑战

工作内容兼具工程挑战与算法深度，个人成长空间大
大模型评测技术仍在快速演进，需持续学习，知识更新压力较大
互联网大厂工作强度较高，需适应快节奏和不确定性

角色解读

成为AI评测领域的专家，主导评测体系从0到1的搭建，技术影响力辐射全团队
向大模型算法或AI infra方向横向发展，积累模型研发与部署的深度经验
晋升为技术Leader，带领团队负责评测平台的建设与演进，推动AI质量保障体系化
设计并开发大模型与Agent的评测体系，包括通用评测和场景化评测，支撑模型迭代
构建分布式评测框架与平台，实现评测流程标准化、自动化和可视化
分析评测数据，定位模型在推理、规划、工具调用等方面的问题，输出改进建议
维护评测指标体系和Benchmark，保障评测结果的客观性和可复现性
深入理解大模型原理与能力边界，熟悉LLM/Agent常见评测方法
掌握主流评测体系（如GAIA、AgentBench），能基于结果进行结构化分析
扎实的工程能力，能主导或参与评测框架、平台的设计与实现
良好的业务理解和沟通能力，能将复杂业务抽象为评测用例

申请策略

在简历中明确标注评测相关的量化成果，如提升模型准确率X%或减少回归问题Y%
面试前准备一个完整的评测方案设计案例，展示从需求分析到结果分析的全流程思考
突出大模型或Agent相关项目经验，如参与过评测体系建设或模型效果评估
展示工程能力，例如开发过自动化测试框架、分布式系统或数据处理平台
强调对主流评测方法（如GAIA、AgentBench）的理解和应用案例
体现业务抽象能力，如将实际流程转化为评测用例的经历
深入研究GAIA、AgentBench等评测标准，并动手复现部分用例
学习分布式计算框架（如Spark、Ray）和可视化工具（如Grafana），提升平台建设能力

面试指南

结构化思维：先明确评测目标（能力维度/场景），再分层设计（指标、数据、流程），最后考虑效率和可扩展性
案例驱动：用具体项目经历佐证，强调从问题分析到方案落地的闭环，突出数据驱动的决策过程
批判性思考：指出当前方法的不足并提出改进思路，展示对技术前沿的关注
请描述一下你熟悉的大模型评测体系，如何设计一个Agent的评测方案？
如何平衡评测的全面性和执行效率？举例说明
在评测中发现模型出现一致性问题时，你会如何定位和输出改进建议？
如何将复杂的业务场景抽象为可复现的自动化评测用例？
你如何看待现有评测标准（如GAIA）的局限性？如何改进？

职位点评

综合评分

大厂大模型方向，前沿技术栈与高成长性，但现场办公且强度较大。

更适合这类人

最适合追求技术成长和前沿领域探索的求职者，对薪资和WLB要求不高，愿意在快节奏中积累核心竞争力。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展90

工作生活40

使命价值65

薪资福利

70中等

薪资未在JD中明确，但字节跳动整体薪资具有竞争力，大模型方向通常偏高，但未提及具体福利，补偿性满足中等偏上。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

90较高

职位聚焦大模型与Agent前沿技术，涉及评测体系设计、分布式平台开发，技能成长空间大，是典型的新兴技术岗位。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、GAIA、AgentBench、分布式系统

业务类型ambiguous

工作生活

40较低

JD未提及远程或弹性办公，也未提及WLB福利，字节跳动通常现场办公且强度较高，生活化满足程度有限。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

65中等

大模型与Agent是当前高增长赛道，工作内容具有技术引领价值，但未明确提及社会使命或创新声明，意义感中等偏上。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型/Agent评测工程师-飞书妙搭

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型/Agent评测工程师-飞书妙搭

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

Backend Developer - AI & Agentic Applications

Data Engineer

（高级）安卓应用开发工程师

Specialist, ML Engineer

VP, Engineering Lead, AI Wealth

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

Backend Developer - AI & Agentic Applications

Data Engineer

（高级）安卓应用开发工程师

Specialist, ML Engineer

VP, Engineering Lead, AI Wealth

字节跳动的其他在招职位

字节跳动的其他在招职位