字节跳动的Agent数据&评测工程师/专家-Dev Infra薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

Agent数据&评测工程师/专家-Dev Infra的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的Agent数据&评测工程师/专家-Dev Infra有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

Agent数据&评测工程师/专家-Dev Infra

立即应聘

Agent数据&评测工程师/专家-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

软件工程

数据分析

数据建设

自动化

评测

LLM

AI 估算 · 25k–45k

字节跳动作为头部互联网公司，薪资待遇优厚，且该岗位涉及LLM前沿技术，技能溢价较高。

职位详情

关于这个职位

该职位专注于LLM在编程、个人助理等场景的应用，负责Agent评测、数据建设和自动化评测基建

你将深入探索前沿AI技术，制定评测标准，构建大规模高质量数据集，推动Agent和模型能力提升

适合对LLM和Agent有浓厚兴趣的技术人才

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业，具有1年以上大模型相关工作经验

具备优秀的编码能力，扎实的数据结构和算法功底，至少熟练掌握C/C++/Go/Python一种开发语言

工作职责

深入探索LLM在编程、个人助理等各种场景中的应用，支持TRAE、扣子等业务的端到端评测工作，Agent评测、调优和自迭代等相关工作

制定评测标准，开发评测Agent，建设自动化评测基建，同时通过数据分析与算法改进，持续探索创新的评测方法

构建大规模高质量的数据（数据建设、数据抓取与解析、数据合成等），提出更好的Benchmark，度量Agent和模型能力

关注行业动态与技术趋势，及时引入新的技术和理念，跟随团队校企横向项目、学术论坛会议、发布论文等，协助团队构建学术界影响力

优先资格

有Agent开发或复杂场景评测经验者优先，在相关会议发表过论文者优先

聪明且对探索未知领域有强烈兴趣，具备问题解决能力与自驱力者优先

AI 洞察

优缺点分析

优点

接触前沿LLM技术，参与业界最先进的Agent评测工作，技术成长快
字节跳动平台资源丰富，数据量大，项目影响力高
团队强调创新和学术产出，有发表论文和参加顶级会议的机会
薪资待遇有竞争力，且有较好的职业发展空间
评测工作涉及复杂场景和多样数据，对问题分析和解决能力要求高
需要跨团队协作，沟通成本较大，对自驱力和主动性要求高

缺点 / 挑战

LLM领域迭代极快，需要持续学习新知识，工作强度可能较高
适合对LLM和Agent有强烈兴趣、具备扎实编程能力、喜欢挑战和创新的技术人才

角色解读

从评测工程师向AI算法专家发展，深入Agent和LLM核心技术
横向扩展至模型训练、推理优化等上下游领域，成为全栈AI人才
向技术管理岗发展，带领团队推动评测体系创新
负责LLM在编程、个人助理等场景的端到端评测，包括Agent评测、调优和自迭代
制定评测标准，开发自动化评测工具和基建，通过数据分析持续改进评测方法
构建大规模高质量数据集（数据抓取、解析、合成），提出新的Benchmark度量Agent和模型能力
跟踪行业动态，参与校企合作和学术会议，发表论文，建立学术影响力
扎实的编程和算法功底，熟练掌握C/C++/Go/Python中至少一种
对LLM和Agent有深入理解，具备评测或数据建设经验
数据分析能力，能从评测结果中洞察问题并优化
创新思维和自驱力，能够独立探索未知领域

申请策略

在简历中体现对LLM和Agent的热情，例如个人博客或GitHub项目
面试前了解字节跳动旗下TRAE、扣子等产品，准备相关见解
突出LLM或Agent相关的项目经验，特别是评测、数据构建或模型调优经历
展示编程能力和算法功底，如有开源项目或竞赛获奖更佳
强调数据分析成果，例如通过评测发现模型问题并推动改进的案例
如有学术论文或会议报告经历，务必列出
深入学习Agent框架（如LangChain）和评测方法论
强化Python或Go的数据处理能力，熟悉相关库（如Pandas、NumPy）

面试指南

明确问题目标，拆解为若干子任务，逐一提出解决方案
结合实际项目经验，用STAR法则（情境、任务、行动、结果）组织回答
展示对细节的把控，如数据质量、评测公平性、可扩展性等
如何设计一个Agent在编程场景下的评测方案？请具体说明
请描述你过去参与过的LLM评测项目，遇到的主要挑战及解决方案
如何构建一个高质量的评测数据集？需要考虑哪些因素？
你如何评估一个Agent的自主性和正确性？有哪些指标？
请用Python实现一个简单的自动化评测脚本，处理多轮对话结果

职位点评

综合评分

字节跳动前沿LLM评测岗，技术成长快，薪资优，但工作强度和WLB一般。

更适合这类人

适合追求技术成长、愿意投入高强度工作以换取前沿经验的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展85

工作生活40

使命价值70

薪资福利

75中等

字节跳动薪资有竞争力，作为上市公司福利体系完善，但JD未明确薪资福利细节，评分中等偏上。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

85较高

岗位涉及LLM前沿技术，有学术产出机会，技术成长空间大，但JD未提及明确晋升通道。

技术前沿前沿/新兴技术

技术栈LLM、Agent、评测、Benchmark、数据合成

业务类型ambiguous

工作生活

40较低

字节跳动通常要求现场办公，JD未提及弹性工作或WLB，工作强度可能较高。

工作模式未明确

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

LLM是高速增长赛道，但岗位偏向技术支撑，社会影响力一般，创新程度较高。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

Agent数据&评测工程师/专家-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

Agent数据&评测工程师/专家-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

字节跳动的其他在招职位

字节跳动的其他在招职位