字节跳动的AI Agent评测工程师（Aime）-Dev Infra薪资是多少？

该职位薪资范围为 30k–55k（人民币/月）。

AI Agent评测工程师（Aime）-Dev Infra的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的AI Agent评测工程师（Aime）-Dev Infra有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

字节跳动

AI Agent评测工程师（Aime）-Dev Infra

立即应聘

AI Agent评测工程师（Aime）-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

数据分析

LLM

数据集构建

AI Agent

自动化评测

大模型评测

Agent评测

对比评测

AI 估算 · 30k–55k

北京大厂硕士岗位，AI Agent方向前沿技术，薪资具有竞争力。

职位详情

关于这个职位

作为字节跳动AI Agent评测工程师，你将深度参与公司Agent产品Aime的全生命周期评测，负责搭建评测体系、构建数据集、研发自动化评测工具，并输出可驱动产品迭代的深度结论

该岗位要求对LLM/Agent有深入理解，具备较强的问题分析与工程实现能力，适合希望在AI评测领域深耕的技术人才

最低要求

硕士及以上学位，计算机、人工智能、软件工程等相关专业，有大模型/LLM/Agent评测、对话系统评估、模型迭代相关经验优先

聪明、学习能力较强，能快速理解复杂Agent逻辑、评测痛点与业务目标，主动思考远多于被动执行

自驱和执行力拉满，追结果、不设限，对高质量有执念，对问题死磕到底

有评测集构建、评测方案设计、数据分析/结论提炼能力，能从数据中发现真问题、给出真方案

熟悉主流大模型生态，有评测工具开发、自动化评测、模型调用经验者优先

工作职责

深度参与字节跳动内部Agent产品Aime的全生命周期评测与迭代，主导评测体系搭建、评测集构建、自动化评测引擎研发，到产品自研评测、行业横向对标等全流程

负责AI Agent全维度评测体系设计与落地，构建高覆盖、高区分度、高可靠性的评测数据集与评测标准

研发和优化自动化评测工具、评测Agent，实现复杂场景、多任务能力的精准量化评估

负责公司Agent产品日常评测、版本迭代验收与问题定位，输出可直接驱动产品迭代的深度结论

开展行业主流Agent产品横向对比评测，挖掘优势与短板，为产品策略与技术方向提供关键依据

主动发现评测盲区、定义新评测维度，持续迭代评测方法论，支撑团队保持业内领先级评测能力

AI 洞察

优缺点分析

优点

字节跳动大平台，资源丰富，能接触到前沿AI Agent技术和海量业务场景
岗位核心，直接参与产品全生命周期，对个人技术视野和影响力提升大
公司发展快，薪资福利优厚，股票激励机会多
AI Agent领域迭代迅速，需持续学习，保持技术敏感度

缺点 / 挑战

评测工作需要高度细心和逻辑思维，重复性验收任务可能较为枯燥
工作强度可能较高，尤其在版本迭代周期内需交付深度结论
适合对AI评测有热情、自驱力强、追求技术深度且能承受一定压力的求职者

角色解读

可向AI评测专家或工程架构师方向发展，成为评测体系的核心构建者
横向拓展至大模型应用或Agent产品研发，转型为全栈AI工程师
长期可晋升为技术Leader，带领评测团队，影响产品战略方向
主导AI Agent评测体系从0到1的搭建，包括评测维度设计、数据集构建和自动化评测引擎开发
负责Agent产品日常评测与版本迭代验收，定位问题并输出深度分析结论驱动产品改进
开展行业横向对比评测，挖掘产品优势与短板，为技术方向提供关键依据
扎实的计算机基础，熟悉LLM/Agent原理，有评测或对话系统评估经验
较强的编程能力，能独立开发自动化评测工具和脚本，精通Python及相关框架
数据分析与问题定位能力，能从海量数据中发现真问题并给出可落地方案

申请策略

申请时可在简历或求职信中表达对AI Agent领域的热情和深度思考
准备一份关于评测体系设计或对比分析的案例，面试时可能用到
突出大模型、Agent或对话系统的评测/评估经历，包括评测集构建、指标设计等
展示自动化工具开发经验，如测试框架、数据流水线等项目
强调数据分析与结论输出能力，可附上报告或博客链接
提及字节跳动或类似大厂实习/工作经历将加分
深入掌握主流大模型API和评测工具，如LangChain、Hugging Face Evaluate等
加强自动化脚本编写能力，学习CI/CD与测试框架（如pytest）

面试指南

先明确评测目标（质量、鲁棒性、安全性等），再设计方案（数据集、指标、自动化流程），最后举例说明效果
针对开放性问题，采用STAR法则（情境-任务-行动-结果）结构化回答
多联系实际项目经验，展现数据思维和工程能力
你如何设计一个针对AI Agent的评测体系？请举例说明
描述一次你从评测数据中发现产品问题的经历，你是如何分析并推动解决的？
你对目前主流Agent产品的评测方法有什么看法？有哪些改进建议？
请说说你对LLM评估中常见指标（如BLEU, ROUGE, GPT打分）的理解和局限性
假设需要自动化评测Agent在复杂场景下的表现，你会如何设计工具和流程？

职位点评

综合评分

大厂前沿AI Agent评测岗，薪资优厚、技术新、成长快，但工作强度大、WLB一般。

更适合这类人

该职位最适合追求技术快速成长和高回报的求职者，能接受高强度工作和现场办公。

表现最好

成长发展

相对薄弱

工作生活

薪资福利90

成长发展95

工作生活40

使命价值65

薪资福利

90较高

字节跳动是上市巨头，薪资福利在业界具有极高竞争力，且AI Agent是当前热门方向，预期薪酬丰厚。

薪资信号未披露（AI估算：30K-55K/月）

成长发展

95较高

该岗位深度参与前沿AI Agent产品，技术栈新，成长空间大，且公司鼓励创新，发展导向强。

技术前沿前沿/新兴技术

技术栈AI Agent、LLM、大模型、自动化评测、Python

业务类型profit_center

工作生活

40较低

工作地点为北京仅现场办公，未提及弹性或远程，互联网大厂通常工作强度较大，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

AI Agent是高速增长赛道，但岗位偏向技术支撑，社会影响力中性，个人使命感可能一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

AI Agent评测工程师（Aime）-Dev Infra

立即应聘

AI Agent评测工程师（Aime）-Dev Infra

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

数据分析

LLM

数据集构建

AI Agent

自动化评测

大模型评测

Agent评测

对比评测

AI 估算 · 30k–55k

北京大厂硕士岗位，AI Agent方向前沿技术，薪资具有竞争力。

职位详情

关于这个职位

该岗位要求对LLM/Agent有深入理解，具备较强的问题分析与工程实现能力，适合希望在AI评测领域深耕的技术人才

最低要求

硕士及以上学位，计算机、人工智能、软件工程等相关专业，有大模型/LLM/Agent评测、对话系统评估、模型迭代相关经验优先

聪明、学习能力较强，能快速理解复杂Agent逻辑、评测痛点与业务目标，主动思考远多于被动执行

自驱和执行力拉满，追结果、不设限，对高质量有执念，对问题死磕到底

有评测集构建、评测方案设计、数据分析/结论提炼能力，能从数据中发现真问题、给出真方案

熟悉主流大模型生态，有评测工具开发、自动化评测、模型调用经验者优先

工作职责

负责AI Agent全维度评测体系设计与落地，构建高覆盖、高区分度、高可靠性的评测数据集与评测标准

研发和优化自动化评测工具、评测Agent，实现复杂场景、多任务能力的精准量化评估

负责公司Agent产品日常评测、版本迭代验收与问题定位，输出可直接驱动产品迭代的深度结论

开展行业主流Agent产品横向对比评测，挖掘优势与短板，为产品策略与技术方向提供关键依据

主动发现评测盲区、定义新评测维度，持续迭代评测方法论，支撑团队保持业内领先级评测能力

AI 洞察

优缺点分析

优点

字节跳动大平台，资源丰富，能接触到前沿AI Agent技术和海量业务场景
岗位核心，直接参与产品全生命周期，对个人技术视野和影响力提升大
公司发展快，薪资福利优厚，股票激励机会多
AI Agent领域迭代迅速，需持续学习，保持技术敏感度

缺点 / 挑战

评测工作需要高度细心和逻辑思维，重复性验收任务可能较为枯燥
工作强度可能较高，尤其在版本迭代周期内需交付深度结论
适合对AI评测有热情、自驱力强、追求技术深度且能承受一定压力的求职者

角色解读

可向AI评测专家或工程架构师方向发展，成为评测体系的核心构建者
横向拓展至大模型应用或Agent产品研发，转型为全栈AI工程师
长期可晋升为技术Leader，带领评测团队，影响产品战略方向
主导AI Agent评测体系从0到1的搭建，包括评测维度设计、数据集构建和自动化评测引擎开发
负责Agent产品日常评测与版本迭代验收，定位问题并输出深度分析结论驱动产品改进
开展行业横向对比评测，挖掘产品优势与短板，为技术方向提供关键依据
扎实的计算机基础，熟悉LLM/Agent原理，有评测或对话系统评估经验
较强的编程能力，能独立开发自动化评测工具和脚本，精通Python及相关框架
数据分析与问题定位能力，能从海量数据中发现真问题并给出可落地方案

申请策略

申请时可在简历或求职信中表达对AI Agent领域的热情和深度思考
准备一份关于评测体系设计或对比分析的案例，面试时可能用到
突出大模型、Agent或对话系统的评测/评估经历，包括评测集构建、指标设计等
展示自动化工具开发经验，如测试框架、数据流水线等项目
强调数据分析与结论输出能力，可附上报告或博客链接
提及字节跳动或类似大厂实习/工作经历将加分
深入掌握主流大模型API和评测工具，如LangChain、Hugging Face Evaluate等
加强自动化脚本编写能力，学习CI/CD与测试框架（如pytest）

面试指南

先明确评测目标（质量、鲁棒性、安全性等），再设计方案（数据集、指标、自动化流程），最后举例说明效果
针对开放性问题，采用STAR法则（情境-任务-行动-结果）结构化回答
多联系实际项目经验，展现数据思维和工程能力
你如何设计一个针对AI Agent的评测体系？请举例说明
描述一次你从评测数据中发现产品问题的经历，你是如何分析并推动解决的？
你对目前主流Agent产品的评测方法有什么看法？有哪些改进建议？
请说说你对LLM评估中常见指标（如BLEU, ROUGE, GPT打分）的理解和局限性
假设需要自动化评测Agent在复杂场景下的表现，你会如何设计工具和流程？

职位点评

综合评分

大厂前沿AI Agent评测岗，薪资优厚、技术新、成长快，但工作强度大、WLB一般。

更适合这类人

该职位最适合追求技术快速成长和高回报的求职者，能接受高强度工作和现场办公。

表现最好

成长发展

相对薄弱

工作生活

薪资福利90

成长发展95

工作生活40

使命价值65

薪资福利

90较高

字节跳动是上市巨头，薪资福利在业界具有极高竞争力，且AI Agent是当前热门方向，预期薪酬丰厚。

薪资信号未披露（AI估算：30K-55K/月）

成长发展

95较高

该岗位深度参与前沿AI Agent产品，技术栈新，成长空间大，且公司鼓励创新，发展导向强。

技术前沿前沿/新兴技术

技术栈AI Agent、LLM、大模型、自动化评测、Python

业务类型profit_center

工作生活

40较低

工作地点为北京仅现场办公，未提及弹性或远程，互联网大厂通常工作强度较大，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

AI Agent是高速增长赛道，但岗位偏向技术支撑，社会影响力中性，个人使命感可能一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

AI Agent评测工程师（Aime）-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

AI Agent评测工程师（Aime）-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

Business R&D Experienced Professional

Manager, Product Development Job Details | BASF SE

Engineer R&D - Compounding Job Details | BASF SE

Assistant Chemist, Alkoxylation Job Details | BASF SE

发动机研发实习生

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

Business R&D Experienced Professional

Manager, Product Development Job Details | BASF SE

Engineer R&D - Compounding Job Details | BASF SE

Assistant Chemist, Alkoxylation Job Details | BASF SE

发动机研发实习生

字节跳动的其他在招职位

字节跳动的其他在招职位