字节跳动的Agent效果评测工程师-Dev Infra薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

Agent效果评测工程师-Dev Infra的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的Agent效果评测工程师-Dev Infra有什么任职要求？

该职位要求本科学历及初级经验工作经验。

字节跳动

Agent效果评测工程师-Dev Infra

立即应聘

Agent效果评测工程师-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

北京市

初级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

A2A

大模型

效果评测

数据结构

算法

LLM

MCP

AI 估算 · 25k–45k

字节跳动中级技术岗位，结合北京互联网薪资水平及大模型方向热度，月薪25-45K，年终奖2-4个月。

职位详情

关于这个职位

该职位负责构建字节跳动软件工程场景下的Agent效果评估体系，包括制定评测标准、设计评测集、开展效果评测，并对效果问题进行归因分析，协同算法团队推动产品迭代

你将接触到前沿的大模型与Agent技术，适合对AI评测有热情、具备编码能力的候选人

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业，具备1年以上评测经验者优先

具备优秀的编码能力，扎实的数据结构和算法功底，至少熟练掌握C/C++/Go/Python一种开发语言

良好的沟通表达能力，对未知领域具备好奇心，有创新意识，良好的自驱力和解决复杂问题能力

对大模型和Agent有较深入的理解，熟悉常见的LLM实施模式、评估框架等，了解Agent架构（Multi-Agent、Context Engineering、ReAct等）和协议（MCP、A2A、Function Call）

具备Agent开发或复杂场景评测经验者优先，有AI技术论文发表、大模型评测或训练经验优先

工作职责

构建字节跳动软件工程开发真实场景下的效果评估体系，负责效果评估标准定义，构建高仿真评测集，设计科学客观的评估指标体系，结合业务场景开展效果评测工作

结合业务场景价值，洞察效果改进点，对效果问题进行分析归因，协同策略PM和算法，推进效果提升，提升产品业务价值

构建自动评测能力和洞察分析能力，引进和探索使用AI新技术，提升评测和洞察分析效率，整体促进产品的迭代效率

关注行业动态和技术最新趋势和方法，及时引入新的技术和理念，探索并应用于真实业务场景

AI 洞察

优缺点分析

优点

身处大模型和Agent的技术前沿，能快速积累AI评估与优化的宝贵经验
字节跳动平台大、业务场景丰富，有机会接触海量真实数据和高并发系统
团队氛围技术驱动，鼓励创新，有持续学习和成长的空间
薪资福利在行业内具有较强竞争力，适合追求高回报的求职者
评测工作需要较强的逻辑分析和归因能力，对细节把握要求高
适合对AI评测充满热情、具备扎实编程功底和探索精神的技术型人才，尤其适合希望在LLM和Agent方向深耕的候选人

缺点 / 挑战

大模型和Agent技术迭代快，需要持续跟踪最新研究，学习压力较大
与算法、产品等多方协作，沟通成本较高，需具备良好的跨团队协调能力

角色解读

成为AI评测领域的专家，主导复杂系统的评估体系设计，向技术专家方向发展
转为AI算法工程师或Agent开发工程师，深入参与模型优化与产品落地
向技术管理方向发展，带领评测团队，推动整体质量与效率提升
设计和构建软件工程场景下的Agent效果评估体系，包括评测标准、评测集和指标体系
对Agent效果问题进行归因分析，协同策略PM和算法工程师推动效果优化
搭建自动评测和洞察分析工具，引入AI新技术提升评测效率
跟踪大模型和Agent领域的最新动态，探索新技术在业务中的应用
扎实的编程能力，熟练掌握Python/Go/C++至少一种，具备良好的数据结构和算法基础
深入理解大模型和Agent技术，熟悉LLM实施模式、评估框架及Agent架构（如Multi-Agent、ReAct）
优秀的沟通与协作能力，能够与产品、算法等多角色高效配合
具备评测经验或AI相关研究背景，有论文发表或大模型评测经验者更佳

申请策略

在面试中主动展示你对评测体系的理解，可以准备一个完整的评测方案案例
关注字节跳动的技术博客和开源项目，了解团队的技术方向和文化
突出你的编程能力，尤其是Python、C++、Go等语言的实际项目经验
强调任何与评测、大模型、Agent相关的经历，包括实习、科研或竞赛
展示你对数据结构与算法的掌握，最好有LeetCode或ACM的成果
如有论文或公开评测成果，务必详细列出，体现你的研究能力
深入学习LLM评估框架（如lm-eval-harness、MT-Bench）和Agent架构（ReAct、Multi-Agent）
补充AI系统性能评测与调优知识，了解常见的自动化测试工具

面试指南

对于评测设计类问题，可以从「评测目标-指标体系-数据集构建-自动化流程-结果分析」五步展开
对于归因分析类问题，可采用「假设驱动+分步验证」的方法，结合日志、中间输出和对比实验
对于技术理解类问题，先概述核心概念，再结合实际项目经验或调研成果，最后提出你的洞察
请设计一个针对智能客服Agent的效果评测方案，包括评测指标、数据集和流程
如何评估大模型在复杂场景下的推理能力？请举例说明
你如何对Agent的错误行为进行归因？请描述你的分析方法
请谈谈你对Multi-Agent系统中评测挑战的看法
你有用过哪些大模型评估框架？它们各自的优缺点是什么？

职位点评

综合评分

字节跳动AI评测岗，前沿技术栈、高成长性，薪资竞争力强但WLB一般。

更适合这类人

最适合同样重视技术成长和职业发展的求职者，愿意为前沿技术付出一定的时间精力。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活60

使命价值70

薪资福利

80较高

字节跳动薪资在互联网行业具有竞争力，且公司福利完善，但JD未明确具体薪资，仅能基于公司规模和职位层级推断。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

90较高

该职位涉及前沿的大模型和Agent技术，团队鼓励技术探索和创新，成长空间大，公司有丰富的内部培训和晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、Multi-Agent、ReAct、MCP、A2A

业务类型ambiguous

工作生活

60中等

北京办公，未提及远程或弹性工作制，互联网公司通常工作强度较高，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

AI评测工作对提升产品可靠性和用户体验有直接贡献，但社会影响力的直接体现不明显，行业处于高增长阶段。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

字节跳动的其他在招职位

相似职位推荐

Watch Jobs

Agent效果评测工程师-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

Agent效果评测工程师-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位