字节跳动的Agent效果评测工程师-Dev Infra薪资是多少？

该职位薪资范围为 20k–35k（人民币/月）。

Agent效果评测工程师-Dev Infra的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

字节跳动的Agent效果评测工程师-Dev Infra有什么任职要求？

该职位要求本科学历及初级经验工作经验。

字节跳动

Agent效果评测工程师-Dev Infra

立即应聘

Agent效果评测工程师-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

深圳市

初级经验

全职员工

仅现场办公

本科

质量管理

Multi-Agent

效果评测

数据结构

算法

LLM

AI 估算 · 20k–35k

AI Agent领域技术含量高，字节跳动薪资竞争力强，本科1年经验对应中上水平。

职位详情

关于这个职位

该职位负责构建大模型与Agent在软件工程场景下的效果评测体系，包括评测标准、数据集和指标设计，并对效果问题进行归因分析，推动产品迭代

工作涉及自动评测工具开发与AI技术探索，适合对大模型和Agent有深入理解、具备编码能力的工程师

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业

具备优秀的编码能力，扎实的数据结构和算法功底，至少熟练掌握C/C++/Go/Python一种开发语言

良好的沟通表达能力，对未知领域具备好奇心，有创新意识，良好的自驱力和解决复杂问题能力

对大模型和Agent有较深入的理解，熟悉常见的LLM实施模式、评估框架等，了解Agent架构（Multi-Agent、Context Engineering、ReAct等）和协议（MCP、A2A、Function Call）

工作职责

构建字节跳动软件工程开发真实场景下的效果评估体系，负责效果评估标准定义，构建高仿真评测集，设计科学客观的评估指标体系，结合业务场景开展效果评测工作

结合业务场景价值，洞察效果改进点，对效果问题进行分析归因，协同策略PM和算法，推进效果提升，提升产品业务价值

构建自动评测能力和洞察分析能力，引进和探索使用AI新技术，提升评测和洞察分析效率，整体促进产品的迭代效率

关注行业动态和技术最新趋势和方法，及时引入新的技术和理念，探索并应用于真实业务场景

优先资格

具备1年以上评测经验者优先

具备Agent开发或复杂场景评测经验者优先，有AI技术论文发表、大模型评测或训练经验优先

AI 洞察

优缺点分析

优点

处于AI前沿领域（LLM+Agent），技术成长空间大，能快速积累行业稀缺经验
字节跳动平台资源丰富，数据与场景真实，成果直接影响产品价值
团队技术氛围浓厚，有机会接触并引入最新AI技术和方法
评测标准制定主观性强，需要较强的抽象和逻辑思维能力
适合对AI技术充满热情、具备扎实编码能力、喜欢解决复杂问题并追求技术成长的工程师

缺点 / 挑战

技术更新迭代快，需要持续学习跟进，工作压力较大
涉及多团队协作，沟通成本较高，需要推动力

角色解读

在评测领域深耕成为专家，主导公司级评测体系建设
横向扩展至AI工程化方向，参与大模型训练与Agent落地
向技术管理方向发展，带领评测团队或转型为AI产品经理
构建并优化大模型与Agent在软件工程场景下的效果评估体系，包括定义评测标准、构建高仿真数据集及设计科学指标
对评测结果进行深入分析，定位效果问题并协同策略与算法团队推动改进
开发自动化评测与洞察分析工具，引入AI新技术提升评测效率，加速产品迭代
扎实的编程能力（Python/C++/Go）及数据结构与算法基础，能独立开发评测工具
深入理解大模型（LLM）与Agent原理，熟悉常用评估框架和Agent架构（如Multi-Agent、ReAct）
具备效果评测方法论和数据分析能力，能设计客观指标并归因分析
良好的沟通与团队协作能力，能与多方角色高效配合

申请策略

在简历或作品集中展示自己对评测体系的理解，如设计过哪些指标、如何归因
面试前了解字节跳动Dev Infra的业务方向，思考如何将自身经验与岗位结合
突出AI/LLM/Agent相关项目经验，尤其是效果评测或工程落地经历
展示编程能力：附上GitHub链接或典型项目，说明使用语言和算法
强调论文发表、大模型评测或Agent开发经验（如有）
体现数据分析和问题归因能力，例如量化指标改进的案例
熟悉主流LLM评估框架（如lm-eval-harness、HELM）和Agent框架（如LangGraph、AutoGPT）
补充系统工程能力：学习CI/CD、自动化测试工具链

面试指南

采用STAR原则：情境、任务、行动、结果，结构化展现项目经验
对于设计类问题，先明确目标（精确性/鲁棒性/效率），再分维度阐述指标与数据构建
归因分析遵循假设驱动：提出可能原因→设计实验验证→数据结论→改进建议
如何为一个Agent应用设计效果评测方案？请举例说明
你如何分析并定位一个Agent模型的效果问题？描述你的方法
谈谈你对LLM评估框架（如BLEU、ROUGE、GPT-based评估）的理解和适用场景
请展示一个你写过的代码片段，解释其数据结构与算法思想
如果评测结果显示Agent在某个场景下表现差，但原因不明，你会如何排查？

职位点评

综合评分

字节AI评测岗，前沿技术栈，薪资竞争力强，但工作强度大。

更适合这类人

最适合理科技术成长、愿意高投入换取快速职业发展的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值60

薪资福利

85较高

字节跳动薪资在行业内具有竞争力，福利体系完善，但JD中未明确列出具体福利。

薪资信号偏高 (20K-35K/月)

成长发展

90较高

岗位聚焦AI前沿技术（LLM、Agent），技术成长空间大，但JD未明确晋升通道。

技术前沿前沿/新兴技术

技术栈LLM、Agent、Python、C++、Go

业务类型ambiguous

工作生活

40较低

字节跳动工作节奏较快，JD未提及弹性办公或WLB，现场办公模式对生活灵活性限制较大。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

60中等

AI行业高速增长，岗位通过评测推动产品价值，但社会影响力一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

Agent效果评测工程师-Dev Infra

立即应聘

Agent效果评测工程师-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

深圳市

初级经验

全职员工

仅现场办公

本科

质量管理

Multi-Agent

效果评测

数据结构

算法

LLM

AI 估算 · 20k–35k

AI Agent领域技术含量高，字节跳动薪资竞争力强，本科1年经验对应中上水平。

职位详情

关于这个职位

该职位负责构建大模型与Agent在软件工程场景下的效果评测体系，包括评测标准、数据集和指标设计，并对效果问题进行归因分析，推动产品迭代

工作涉及自动评测工具开发与AI技术探索，适合对大模型和Agent有深入理解、具备编码能力的工程师

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业

具备优秀的编码能力，扎实的数据结构和算法功底，至少熟练掌握C/C++/Go/Python一种开发语言

良好的沟通表达能力，对未知领域具备好奇心，有创新意识，良好的自驱力和解决复杂问题能力

工作职责

结合业务场景价值，洞察效果改进点，对效果问题进行分析归因，协同策略PM和算法，推进效果提升，提升产品业务价值

构建自动评测能力和洞察分析能力，引进和探索使用AI新技术，提升评测和洞察分析效率，整体促进产品的迭代效率

关注行业动态和技术最新趋势和方法，及时引入新的技术和理念，探索并应用于真实业务场景

优先资格

具备1年以上评测经验者优先

具备Agent开发或复杂场景评测经验者优先，有AI技术论文发表、大模型评测或训练经验优先

AI 洞察

优缺点分析

优点

处于AI前沿领域（LLM+Agent），技术成长空间大，能快速积累行业稀缺经验
字节跳动平台资源丰富，数据与场景真实，成果直接影响产品价值
团队技术氛围浓厚，有机会接触并引入最新AI技术和方法
评测标准制定主观性强，需要较强的抽象和逻辑思维能力
适合对AI技术充满热情、具备扎实编码能力、喜欢解决复杂问题并追求技术成长的工程师

缺点 / 挑战

技术更新迭代快，需要持续学习跟进，工作压力较大
涉及多团队协作，沟通成本较高，需要推动力

角色解读

在评测领域深耕成为专家，主导公司级评测体系建设
横向扩展至AI工程化方向，参与大模型训练与Agent落地
向技术管理方向发展，带领评测团队或转型为AI产品经理
构建并优化大模型与Agent在软件工程场景下的效果评估体系，包括定义评测标准、构建高仿真数据集及设计科学指标
对评测结果进行深入分析，定位效果问题并协同策略与算法团队推动改进
开发自动化评测与洞察分析工具，引入AI新技术提升评测效率，加速产品迭代
扎实的编程能力（Python/C++/Go）及数据结构与算法基础，能独立开发评测工具
深入理解大模型（LLM）与Agent原理，熟悉常用评估框架和Agent架构（如Multi-Agent、ReAct）
具备效果评测方法论和数据分析能力，能设计客观指标并归因分析
良好的沟通与团队协作能力，能与多方角色高效配合

申请策略

在简历或作品集中展示自己对评测体系的理解，如设计过哪些指标、如何归因
面试前了解字节跳动Dev Infra的业务方向，思考如何将自身经验与岗位结合
突出AI/LLM/Agent相关项目经验，尤其是效果评测或工程落地经历
展示编程能力：附上GitHub链接或典型项目，说明使用语言和算法
强调论文发表、大模型评测或Agent开发经验（如有）
体现数据分析和问题归因能力，例如量化指标改进的案例
熟悉主流LLM评估框架（如lm-eval-harness、HELM）和Agent框架（如LangGraph、AutoGPT）
补充系统工程能力：学习CI/CD、自动化测试工具链

面试指南

采用STAR原则：情境、任务、行动、结果，结构化展现项目经验
对于设计类问题，先明确目标（精确性/鲁棒性/效率），再分维度阐述指标与数据构建
归因分析遵循假设驱动：提出可能原因→设计实验验证→数据结论→改进建议
如何为一个Agent应用设计效果评测方案？请举例说明
你如何分析并定位一个Agent模型的效果问题？描述你的方法
谈谈你对LLM评估框架（如BLEU、ROUGE、GPT-based评估）的理解和适用场景
请展示一个你写过的代码片段，解释其数据结构与算法思想
如果评测结果显示Agent在某个场景下表现差，但原因不明，你会如何排查？

职位点评

综合评分

字节AI评测岗，前沿技术栈，薪资竞争力强，但工作强度大。

更适合这类人

最适合理科技术成长、愿意高投入换取快速职业发展的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值60

薪资福利

85较高

字节跳动薪资在行业内具有竞争力，福利体系完善，但JD中未明确列出具体福利。

薪资信号偏高 (20K-35K/月)

成长发展

90较高

岗位聚焦AI前沿技术（LLM、Agent），技术成长空间大，但JD未明确晋升通道。

技术前沿前沿/新兴技术

技术栈LLM、Agent、Python、C++、Go

业务类型ambiguous

工作生活

40较低

字节跳动工作节奏较快，JD未提及弹性办公或WLB，现场办公模式对生活灵活性限制较大。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

60中等

AI行业高速增长，岗位通过评测推动产品价值，但社会影响力一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

Agent效果评测工程师-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Agent效果评测工程师-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

测试工程师实习生

材料品质工程师（CCM方向）

材料品质工程师（新材料方向）

PE - Battery

前期质量管理

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

测试工程师实习生

材料品质工程师（CCM方向）

材料品质工程师（新材料方向）

PE - Battery

前期质量管理

字节跳动的其他在招职位

字节跳动的其他在招职位