字节跳动的Agent数据&评测工程师/专家-Dev Infra薪资是多少？

该职位薪资范围为 20k–35k（人民币/月）。

Agent数据&评测工程师/专家-Dev Infra的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的Agent数据&评测工程师/专家-Dev Infra有什么任职要求？

该职位要求本科学历及初级经验工作经验。

字节跳动

Agent数据&评测工程师/专家-Dev Infra

立即应聘

Agent数据&评测工程师/专家-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

上海市

初级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

数据合成

数据构建

数据评测

算法

自动化评测

LLM

AI 估算 · 20k–35k

大厂核心研发岗位，LLM/Agent方向技术稀缺，薪资竞争力强，结合上海生活成本和行业水平

职位详情

关于这个职位

该职位主要负责LLM在编程、个人助理等场景的Agent评测与数据建设，包括制定评测标准、开发自动化评测工具、构建大规模高质量数据集，并持续探索创新的评测方法

你将深入参与大模型能力度量与调优，推动Agent和模型能力的边界突破，同时有机会接触行业前沿技术并发表论文

适合对大模型和Agent有浓厚兴趣、具备扎实编码能力和自驱力的技术人才

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业，具有1年以上大模型相关工作经验

具备优秀的编码能力，扎实的数据结构和算法功底，至少熟练掌握C/C++/Go/Python一种开发语言

工作职责

深入探索LLM在编程、个人助理等各种场景中的应用，支持TRAE、扣子等业务的端到端评测工作，Agent评测、调优和自迭代等相关工作

制定评测标准，开发评测Agent，建设自动化评测基建，同时通过数据分析与算法改进，持续探索创新的评测方法

构建大规模高质量的数据（数据建设、数据抓取与解析、数据合成等），提出更好的Benchmark，度量Agent和模型能力

关注行业动态与技术趋势，及时引入新的技术和理念，跟随团队校企横向项目、学术论坛会议、发布论文等，协助团队构建学术界影响力

优先资格

有Agent开发或复杂场景评测经验者优先

聪明且对探索未知领域有强烈兴趣，具备极强的问题解决能力与自驱力者优先

AI 洞察

优缺点分析

优点

身处大模型技术前沿，接触最新LLM应用场景，技术成长空间大
字节跳动平台资源丰富，数据和算力支持充分，能快速积累行业影响力
职位涉及评测、数据、算法全链路，打造综合能力
工作节奏较快，需应对多业务线评测需求，时间管理要求高
大模型领域迭代迅速，需持续学习保持技术敏感度
评测工作有时枯燥，需要极强的自驱力和细致耐心
该职位适合对大模型和Agent有浓厚兴趣、善于钻研、具备扎实编程基础和自驱力的技术人才，尤其适合希望在AI评测和数据建设方向深耕的候选人

缺点 / 挑战

暂无明显挑战项

角色解读

可向高级评测专家或大模型算法专家方向发展，深入Agent能力评估与优化
有机会转向Agent开发或模型训练方向，积累全栈式大模型经验
也可向技术管理岗位发展，带领评测团队，或进入学术界发表论文、参与标准制定
负责LLM在编程、个人助理等场景的端到端评测，包括制定评测标准、开发自动化评测Agent，并通过数据分析持续优化评测方法
构建大规模高质量数据集，包括数据抓取、解析和合成，提出更好的Benchmark来度量Agent和模型能力
关注行业动态，引入新技术，参与校企合作项目和学术会议，助力团队构建学术界影响力
具备扎实的编码能力，熟练掌握C/C++/Go/Python中的至少一种，数据结构和算法基础牢固
对大模型和Agent有深入理解，有相关评测或开发经验者优先，需要能够独立设计评测方案
具备数据构建和处理能力，熟悉数据抓取、解析、合成等流程，能够提出创新性Benchmark

申请策略

在简历中体现对字节跳动相关产品（如TRAE、扣子）的了解，展示业务兴趣
突出大模型相关项目经验，特别是Agent评测、数据构建或模型调优的实践
强调编码能力，列出熟练的语言和算法竞赛、开源贡献等成果
如有论文发表或学术会议经历，务必展示，体现研究能力
提前了解LLM评测常用方法（如HumanEval、MT-Bench等）和Agent框架（如LangChain、AutoGPT）
补充数据抓取、清洗、合成方面的技能，熟悉常见数据工具

面试指南

对于评测方案类问题，从目标定义、指标选择、数据集构建、自动化流程、结果分析等维度展开，结合具体案例
对于项目经验类问题，采用STAR原则（情境-任务-行动-结果），突出个人贡献和效果量化
对于开放性问题，强调逻辑性和创新性，展示对技术细节的理解和思考
如何设计一个Agent在编程任务上的评测方案？请举例说明
简述你参与过的大模型数据构建或评测项目，遇到的最大挑战是什么？
如何自动化地评估一个Agent的性能，并保证评测的公平性和可重复性？
你如何理解端到端评测与单独模型能力评测的区别？
请描述一个你主动探索并解决的技术难题，体现自驱力

职位点评

综合评分

大厂核心大模型评测岗位，技术前沿，薪资优厚，但工作强度和节奏较快

更适合这类人

最适合追求技术成长和前沿探索的求职者，若对WLB有较高要求需谨慎考虑。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值65

薪资福利

80较高

字节跳动作为头部互联网公司，薪资待遇具有竞争力（参考salary_estimation），福利完善，但JD未明确提及具体福利项，补偿性动机满足度较高。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

90较高

该职位处于LLM/Agent前沿技术领域，直接参与核心评测和数据建设，技术成长空间大，JD中明确提及'关注行业动态、引入新理念、发表论文'，发展性动机得到很好满足。

技术前沿前沿/新兴技术

技术栈LLM、Agent、数据合成、自动化评测、Benchmark

成长机会关注行业动态、引入新的技术和理念、发表论文

业务类型ambiguous

工作生活

50较低

JD未提及远程办公或弹性工时，字节跳动通常要求现场办公，且互联网公司工作节奏较快，WLB信号不足，生活化动机满足度中等偏低。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

大模型技术处于高速发展赛道，对社会智能化有推动作用，但该职位偏技术实现，社会影响力较间接，意义感动机满足度中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

Agent数据&评测工程师/专家-Dev Infra

立即应聘

Agent数据&评测工程师/专家-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

上海市

初级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

数据合成

数据构建

数据评测

算法

自动化评测

LLM

AI 估算 · 20k–35k

大厂核心研发岗位，LLM/Agent方向技术稀缺，薪资竞争力强，结合上海生活成本和行业水平

职位详情

关于这个职位

你将深入参与大模型能力度量与调优，推动Agent和模型能力的边界突破，同时有机会接触行业前沿技术并发表论文

适合对大模型和Agent有浓厚兴趣、具备扎实编码能力和自驱力的技术人才

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业，具有1年以上大模型相关工作经验

具备优秀的编码能力，扎实的数据结构和算法功底，至少熟练掌握C/C++/Go/Python一种开发语言

工作职责

深入探索LLM在编程、个人助理等各种场景中的应用，支持TRAE、扣子等业务的端到端评测工作，Agent评测、调优和自迭代等相关工作

制定评测标准，开发评测Agent，建设自动化评测基建，同时通过数据分析与算法改进，持续探索创新的评测方法

构建大规模高质量的数据（数据建设、数据抓取与解析、数据合成等），提出更好的Benchmark，度量Agent和模型能力

关注行业动态与技术趋势，及时引入新的技术和理念，跟随团队校企横向项目、学术论坛会议、发布论文等，协助团队构建学术界影响力

优先资格

有Agent开发或复杂场景评测经验者优先

聪明且对探索未知领域有强烈兴趣，具备极强的问题解决能力与自驱力者优先

AI 洞察

优缺点分析

优点

身处大模型技术前沿，接触最新LLM应用场景，技术成长空间大
字节跳动平台资源丰富，数据和算力支持充分，能快速积累行业影响力
职位涉及评测、数据、算法全链路，打造综合能力
工作节奏较快，需应对多业务线评测需求，时间管理要求高
大模型领域迭代迅速，需持续学习保持技术敏感度
评测工作有时枯燥，需要极强的自驱力和细致耐心
该职位适合对大模型和Agent有浓厚兴趣、善于钻研、具备扎实编程基础和自驱力的技术人才，尤其适合希望在AI评测和数据建设方向深耕的候选人

缺点 / 挑战

暂无明显挑战项

角色解读

可向高级评测专家或大模型算法专家方向发展，深入Agent能力评估与优化
有机会转向Agent开发或模型训练方向，积累全栈式大模型经验
也可向技术管理岗位发展，带领评测团队，或进入学术界发表论文、参与标准制定
负责LLM在编程、个人助理等场景的端到端评测，包括制定评测标准、开发自动化评测Agent，并通过数据分析持续优化评测方法
构建大规模高质量数据集，包括数据抓取、解析和合成，提出更好的Benchmark来度量Agent和模型能力
关注行业动态，引入新技术，参与校企合作项目和学术会议，助力团队构建学术界影响力
具备扎实的编码能力，熟练掌握C/C++/Go/Python中的至少一种，数据结构和算法基础牢固
对大模型和Agent有深入理解，有相关评测或开发经验者优先，需要能够独立设计评测方案
具备数据构建和处理能力，熟悉数据抓取、解析、合成等流程，能够提出创新性Benchmark

申请策略

在简历中体现对字节跳动相关产品（如TRAE、扣子）的了解，展示业务兴趣
突出大模型相关项目经验，特别是Agent评测、数据构建或模型调优的实践
强调编码能力，列出熟练的语言和算法竞赛、开源贡献等成果
如有论文发表或学术会议经历，务必展示，体现研究能力
提前了解LLM评测常用方法（如HumanEval、MT-Bench等）和Agent框架（如LangChain、AutoGPT）
补充数据抓取、清洗、合成方面的技能，熟悉常见数据工具

面试指南

对于评测方案类问题，从目标定义、指标选择、数据集构建、自动化流程、结果分析等维度展开，结合具体案例
对于项目经验类问题，采用STAR原则（情境-任务-行动-结果），突出个人贡献和效果量化
对于开放性问题，强调逻辑性和创新性，展示对技术细节的理解和思考
如何设计一个Agent在编程任务上的评测方案？请举例说明
简述你参与过的大模型数据构建或评测项目，遇到的最大挑战是什么？
如何自动化地评估一个Agent的性能，并保证评测的公平性和可重复性？
你如何理解端到端评测与单独模型能力评测的区别？
请描述一个你主动探索并解决的技术难题，体现自驱力

职位点评

综合评分

大厂核心大模型评测岗位，技术前沿，薪资优厚，但工作强度和节奏较快

更适合这类人

最适合追求技术成长和前沿探索的求职者，若对WLB有较高要求需谨慎考虑。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值65

薪资福利

80较高

字节跳动作为头部互联网公司，薪资待遇具有竞争力（参考salary_estimation），福利完善，但JD未明确提及具体福利项，补偿性动机满足度较高。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

90较高

技术前沿前沿/新兴技术

技术栈LLM、Agent、数据合成、自动化评测、Benchmark

成长机会关注行业动态、引入新的技术和理念、发表论文

业务类型ambiguous

工作生活

50较低

JD未提及远程办公或弹性工时，字节跳动通常要求现场办公，且互联网公司工作节奏较快，WLB信号不足，生活化动机满足度中等偏低。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

大模型技术处于高速发展赛道，对社会智能化有推动作用，但该职位偏技术实现，社会影响力较间接，意义感动机满足度中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

Agent数据&评测工程师/专家-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Agent数据&评测工程师/专家-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

字节跳动的其他在招职位