字节跳动的Agent数据&评测工程师/专家-Dev Infra薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

Agent数据&评测工程师/专家-Dev Infra的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

字节跳动的Agent数据&评测工程师/专家-Dev Infra有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

Agent数据&评测工程师/专家-Dev Infra

立即应聘

Agent数据&评测工程师/专家-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Agent评测

数据分析

数据工程

LLM

自动化基建

AI 估算 · 25k–45k

字节跳动资深技术岗，杭州互联网薪资水平较高，岗位要求1年以上大模型经验，且涉及前沿Agent评测，薪资有竞争力。

职位详情

关于这个职位

该职位负责 LLM 在编程、个人助理等场景的 Agent 评测与数据建设，制定评测标准、开发自动化评测基建，并构建高质量数据集以提升模型能力

适合对 AI 评测、数据工程有热情的技术人才，可深入参与前沿大模型应用落地

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业，具有1年以上大模型相关工作经验

具备优秀的编码能力，扎实的数据结构和算法功底，至少熟练掌握C/C++/Go/Python一种开发语言

有Agent开发或复杂场景评测经验者优先，在相关会议发表过论文者优先

聪明且对探索未知领域有强烈兴趣，具备问题解决能力与自驱力者优先

工作职责

深入探索LLM在编程、个人助理等各种场景中的应用，支持TRAE、扣子等业务的端到端评测工作，Agent评测、调优和自迭代等相关工作

制定评测标准，开发评测Agent，建设自动化评测基建，同时通过数据分析与算法改进，持续探索创新的评测方法

构建大规模高质量的数据（数据建设、数据抓取与解析、数据合成等），提出更好的Benchmark，度量Agent和模型能力

关注行业动态与技术趋势，及时引入新的技术和理念，跟随团队校企横向项目、学术论坛会议、发布论文等，协助团队构建学术界影响力

AI 洞察

优缺点分析

优点

处于 AI 大模型前沿领域，技术成长空间大，积累 Agent 评测与数据工程核心经验
字节跳动平台资源丰富，业务场景（TRAE、扣子）落地性强，成果易被广泛使用
团队注重学术影响力，有发论文、参加顶会的机会，利于个人品牌建设
薪资福利有竞争力，且技术栈新颖，未来职业选择灵活
评测标准与自动化基建的初期建设难度大，需要较强的问题拆解和工程能力
数据构建与质量控制需要耐心与细致，可能面临数据稀缺或标注困难
适合对 LLM 与 Agent 评测有浓厚兴趣、喜欢技术钻研和创新的工程师，尤其是有一定经验并希望深耕 AI 评测方向的人

缺点 / 挑战

大模型领域迭代快速，需要持续学习与跟进最新技术，工作强度可能较高

角色解读

向资深评测专家或技术负责人方向发展，主导复杂场景的评测体系搭建
横向拓展至大模型训练、算法优化等方向，提升综合技术深度
可转向数据科学或 AI 产品经理，利用评测经验推动业务落地
负责 LLM 在编程、个人助理等场景的 Agent 评测工作，制定评测标准并开发自动化评测工具
构建大规模高质量的数据集，优化数据采集、合成与解析流程，提出更好的基准测试
通过数据分析和算法改进，持续探索创新的评测方法，推动 Agent 能力的提升
关注行业趋势，参与校企合作、学术论坛与论文发表，提升团队学术界影响力
精通 Python、Go、C++ 等至少一种编程语言，具备扎实的数据结构和算法基础
了解大模型与 Agent 评测原理，有相关项目或论文经验者优先
擅长数据处理与自动化工具开发，能独立建设评测基建
具备较强的问题解决能力和自驱力，对未知领域有探索热情

申请策略

了解字节跳动及 TRAE、扣子业务的产品定位，在面试中展现你对业务场景的理解
准备一个你精心设计的评测方案或数据构建思路，体现创新与工程落地能力
突出大模型相关项目经验，特别是 Agent 开发或评测的具体案例，说明你的贡献和成果
强调编程能力和数据结构功底，可附上 GitHub 链接或技术博客
如有论文、开源项目或竞赛奖项，务必列出，体现学术与技术潜力
用量化指标说明数据建设或评测效率的提升，如“将评测自动化覆盖率提升至 90%”
补充强化学习或 LLM 微调相关知识，有助于理解 Agent 评测的深层逻辑
熟练掌握数据处理工具（如 Spark、Ray）和自动化测试框架（如 Pytest、Selenium）

面试指南

结构化回答：先明确目标与范围，再分步骤说明方案（数据采集、指标设计、自动化流程、结果分析）
结合经验：用具体案例支撑，突出你的技术与思考，并提及迭代优化过程
展现学习能力：对不熟悉的问题，可坦诚并表达你的分析思路与学习计划
如何设计一个针对 LLM 编程助手的端到端评测方案？
请描述一次你构建大规模数据集的经验，如何保证数据质量与多样性？
什么是 Agent 评测中常见的陷阱？如何避免？
如果你发现有评测指标与实际用户体验不符，你会如何调整？
你对当前主流 Agent 框架（如 LangChain、AutoGPT）的评测方法有什么看法？

职位点评

综合评分

字节跳动前沿 Agent 评测与数据工程岗，技术成长极高，薪资优厚，但 WLB 一般。

更适合这类人

最适合重视技术成长和前沿探索的求职者，能接受互联网工作节奏，对薪资和未来发展有较高期望。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值75

薪资福利

80较高

字节跳动薪资偏高，福利完善（五险一金、补充医疗、年终奖），但具体薪资需面议，整体补偿性动机满足度高。

薪资信号面议 (25K-45K/月)

成长发展

90较高

前沿技术栈（LLM、Agent），团队注重学术与工程结合，有论文发表机会，成长空间极大。

技术前沿前沿/新兴技术

技术栈LLM、Agent评测、自动化基建、数据合成、Benchmark

成长机会发布论文、构建学术界影响力

业务类型ambiguous

工作生活

50较低

默认现场办公，未提及弹性工作或 WLB，互联网大厂通常有加班文化，生活化动机满足度一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

75中等

AI 行业高速增长，工作推动 Agent 技术落地，有一定社会价值，但使命导向并不强。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

Agent数据&评测工程师/专家-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

Agent数据&评测工程师/专家-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

字节跳动的其他在招职位