字节跳动的Agent效果评测工程师-Dev Infra薪资是多少？

该职位薪资范围为 20k–35k（人民币/月）。

Agent效果评测工程师-Dev Infra的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

字节跳动的Agent效果评测工程师-Dev Infra有什么任职要求？

该职位要求本科学历及初级经验工作经验。

字节跳动

Agent效果评测工程师-Dev Infra

立即应聘

Agent效果评测工程师-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

初级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

A2A

Multi-Agent

大模型

效果评测

LLM

MCP

AI 估算 · 20k–35k

字节跳动大厂薪资竞争力强，Agent评测方向技术稀缺，1年经验初阶薪资范围合理。

职位详情

关于这个职位

该职位负责构建字节跳动软件工程场景下的效果评估体系，包括定义标准、设计评测集、分析问题并推动改进

你将与算法和策略团队协作，利用AI技术提升评测效率，优化产品迭代

适合对AI Agent和大模型评测有浓厚兴趣的技术人才

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业

具备优秀的编码能力，扎实的数据结构和算法功底，至少熟练掌握C/C++/Go/Python一种开发语言

良好的沟通表达能力，对未知领域具备好奇心，有创新意识，良好的自驱力和解决复杂问题能力

对大模型和Agent有较深入的理解，熟悉常见的LLM实施模式、评估框架等，了解Agent架构（Multi-Agent、Context Engineering、ReAct等）和协议（MCP、A2A、Function Call）

工作职责

构建字节跳动软件工程开发真实场景下的效果评估体系，负责效果评估标准定义，构建高仿真评测集，设计科学客观的评估指标体系，结合业务场景开展效果评测工作

结合业务场景价值，洞察效果改进点，对效果问题进行分析归因，协同策略PM和算法，推进效果提升，提升产品业务价值

构建自动评测能力和洞察分析能力，引进和探索使用AI新技术，提升评测和洞察分析效率，整体促进产品的迭代效率

关注行业动态和技术最新趋势和方法，及时引入新的技术和理念，探索并应用于真实业务场景

优先资格

具备1年以上评测经验者优先

具备Agent开发或复杂场景评测经验者优先

有AI技术论文发表、大模型评测或训练经验优先

AI 洞察

优缺点分析

优点

身处大模型和Agent前沿阵地，技术积累价值高
字节跳动平台资源丰富，能接触大规模真实场景
岗位稀缺性强，未来AI评测需求持续增长
跨团队协作机会多，能提升综合技术视野
评测标准制定需兼顾业务价值和技术深度，对综合能力要求高
大模型领域变化快，需要持续学习跟踪最新技术
适合对AI评测和Agent技术有热情、具备较强编程和问题分析能力、乐于在快节奏环境中成长的工程师

缺点 / 挑战

字节跳动工作节奏较快，可能需要应对较强的时间压力

角色解读

深耕AI评测领域，成为评测专家或质量架构师
转向算法或策略岗位，基于评测洞察直接参与模型优化
发展为技术管理岗，带领评测团队或质量团队
设计并执行大模型和Agent在软件工程场景下的效果评测，制定标准与指标
分析评测结果，定位效果问题，与算法和策略团队协作推动优化
构建自动化评测平台，引入AI技术提升评测效率
跟踪行业前沿，探索评测新技术并落地
扎实的编程能力（C/C++/Go/Python）和数据结构算法基础
对大模型和Agent技术有深入理解，熟悉LLM评估框架（如RAGAS、LangSmith）
良好的沟通协作能力，能够跨团队推动问题解决
创新思维和自驱力，善于将新技术应用于实际评测

申请策略

关注字节跳动技术博客或开源项目，了解其在Agent和AI Infra上的布局
面试中可准备一个你主导或参与的评测案例，展示分析思路和结果
突出大模型或Agent相关的项目经验，尤其是评测或训练经历
强调编程能力和数据结构算法基础，用具体代码或项目佐证
展示对LLM评估框架（如RAGAS、LangSmith）或Agent协议（MCP、A2A）的了解
提及论文发表或开源贡献，体现技术深度
深入学习Agent架构（Multi-Agent、ReAct）和评估方法论
熟悉主流LLM评估工具和数据集，动手实践搭建评测Pipeline

面试指南

对于评测设计类问题：先明确场景和目标，再拆解评估维度（如准确性、效率、鲁棒性），然后选择或设计指标，最后说明数据采集和计算方式
对于技术理解类问题：清晰解释概念，结合实际案例说明应用，并指出优缺点
请设计一个Agent在代码生成场景下的评测方案
如何评估一个Multi-Agent系统的整体效果？有哪些指标？
你如何判断一个LLM输出是好的？有哪些定性和定量方法？
请解释一下ReAct模式的工作原理，以及你如何评测其效果
你在之前的项目中是如何处理评测数据集的构建和标注的？
复习大模型评估的经典论文（如RAGAS、MMLU、HumanEval等）

职位点评

综合评分

字节大厂、前沿AI评测、技术成长快，但工作强度大、WLB一般。

更适合这类人

该职位最适合发展性动机强烈的求职者，即希望在大模型和Agent前沿领域快速成长、积累核心技术经验的人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

字节跳动薪资在行业内具有较强竞争力，福利完善（如五险一金、补充医疗、免费三餐等），但JD未明确薪资和具体福利，故评分略高但留有余地。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

90较高

该职位聚焦大模型和Agent前沿技术，涉及最新评估方法和自动化工具，成长空间大。公司内部技术氛围浓厚，有较多学习和晋升机会。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、Multi-Agent、MCP、A2A、RAGAS、LangSmith

业务类型ambiguous

工作生活

40较低

字节跳动以高强度工作文化著称，虽JD未提及WLB，但业内普遍认知加班较多，且工作地点为杭州，生活成本较高。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

AI评测岗位有助于推动技术进步，但产品价值偏内部效率提升，社会影响力中性。行业处于高速增长期，但岗位本身并非直接面向用户或社会痛点。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

Agent效果评测工程师-Dev Infra

立即应聘

Agent效果评测工程师-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

初级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

A2A

Multi-Agent

大模型

效果评测

LLM

MCP

AI 估算 · 20k–35k

字节跳动大厂薪资竞争力强，Agent评测方向技术稀缺，1年经验初阶薪资范围合理。

职位详情

关于这个职位

该职位负责构建字节跳动软件工程场景下的效果评估体系，包括定义标准、设计评测集、分析问题并推动改进

你将与算法和策略团队协作，利用AI技术提升评测效率，优化产品迭代

适合对AI Agent和大模型评测有浓厚兴趣的技术人才

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业

具备优秀的编码能力，扎实的数据结构和算法功底，至少熟练掌握C/C++/Go/Python一种开发语言

良好的沟通表达能力，对未知领域具备好奇心，有创新意识，良好的自驱力和解决复杂问题能力

工作职责

结合业务场景价值，洞察效果改进点，对效果问题进行分析归因，协同策略PM和算法，推进效果提升，提升产品业务价值

构建自动评测能力和洞察分析能力，引进和探索使用AI新技术，提升评测和洞察分析效率，整体促进产品的迭代效率

关注行业动态和技术最新趋势和方法，及时引入新的技术和理念，探索并应用于真实业务场景

优先资格

具备1年以上评测经验者优先

具备Agent开发或复杂场景评测经验者优先

有AI技术论文发表、大模型评测或训练经验优先

AI 洞察

优缺点分析

优点

身处大模型和Agent前沿阵地，技术积累价值高
字节跳动平台资源丰富，能接触大规模真实场景
岗位稀缺性强，未来AI评测需求持续增长
跨团队协作机会多，能提升综合技术视野
评测标准制定需兼顾业务价值和技术深度，对综合能力要求高
大模型领域变化快，需要持续学习跟踪最新技术
适合对AI评测和Agent技术有热情、具备较强编程和问题分析能力、乐于在快节奏环境中成长的工程师

缺点 / 挑战

字节跳动工作节奏较快，可能需要应对较强的时间压力

角色解读

深耕AI评测领域，成为评测专家或质量架构师
转向算法或策略岗位，基于评测洞察直接参与模型优化
发展为技术管理岗，带领评测团队或质量团队
设计并执行大模型和Agent在软件工程场景下的效果评测，制定标准与指标
分析评测结果，定位效果问题，与算法和策略团队协作推动优化
构建自动化评测平台，引入AI技术提升评测效率
跟踪行业前沿，探索评测新技术并落地
扎实的编程能力（C/C++/Go/Python）和数据结构算法基础
对大模型和Agent技术有深入理解，熟悉LLM评估框架（如RAGAS、LangSmith）
良好的沟通协作能力，能够跨团队推动问题解决
创新思维和自驱力，善于将新技术应用于实际评测

申请策略

关注字节跳动技术博客或开源项目，了解其在Agent和AI Infra上的布局
面试中可准备一个你主导或参与的评测案例，展示分析思路和结果
突出大模型或Agent相关的项目经验，尤其是评测或训练经历
强调编程能力和数据结构算法基础，用具体代码或项目佐证
展示对LLM评估框架（如RAGAS、LangSmith）或Agent协议（MCP、A2A）的了解
提及论文发表或开源贡献，体现技术深度
深入学习Agent架构（Multi-Agent、ReAct）和评估方法论
熟悉主流LLM评估工具和数据集，动手实践搭建评测Pipeline

面试指南

对于评测设计类问题：先明确场景和目标，再拆解评估维度（如准确性、效率、鲁棒性），然后选择或设计指标，最后说明数据采集和计算方式
对于技术理解类问题：清晰解释概念，结合实际案例说明应用，并指出优缺点
请设计一个Agent在代码生成场景下的评测方案
如何评估一个Multi-Agent系统的整体效果？有哪些指标？
你如何判断一个LLM输出是好的？有哪些定性和定量方法？
请解释一下ReAct模式的工作原理，以及你如何评测其效果
你在之前的项目中是如何处理评测数据集的构建和标注的？
复习大模型评估的经典论文（如RAGAS、MMLU、HumanEval等）

职位点评

综合评分

字节大厂、前沿AI评测、技术成长快，但工作强度大、WLB一般。

更适合这类人

该职位最适合发展性动机强烈的求职者，即希望在大模型和Agent前沿领域快速成长、积累核心技术经验的人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

字节跳动薪资在行业内具有较强竞争力，福利完善（如五险一金、补充医疗、免费三餐等），但JD未明确薪资和具体福利，故评分略高但留有余地。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

90较高

该职位聚焦大模型和Agent前沿技术，涉及最新评估方法和自动化工具，成长空间大。公司内部技术氛围浓厚，有较多学习和晋升机会。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、Multi-Agent、MCP、A2A、RAGAS、LangSmith

业务类型ambiguous

工作生活

40较低

字节跳动以高强度工作文化著称，虽JD未提及WLB，但业内普遍认知加班较多，且工作地点为杭州，生活成本较高。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

AI评测岗位有助于推动技术进步，但产品价值偏内部效率提升，社会影响力中性。行业处于高速增长期，但岗位本身并非直接面向用户或社会痛点。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

Agent效果评测工程师-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Agent效果评测工程师-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

字节跳动的其他在招职位