字节跳动的Agent数据与评测Leader（Coze方向）-Dev Infra薪资是多少？

该职位薪资范围为 45k–75k（人民币/月）。

Agent数据与评测Leader（Coze方向）-Dev Infra的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的Agent数据与评测Leader（Coze方向）-Dev Infra有什么任职要求？

该职位要求本科学历及高级经验工作经验。

字节跳动

Agent数据与评测Leader（Coze方向）-Dev Infra

立即应聘

Agent数据与评测Leader（Coze方向）-Dev Infra

发布于大约 2 个月前

中层管理(经理/总监)

北京市

高级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

团队管理

大模型评测

数据分析

数据合成

AI 估算 · 45k–75k

高级AI评测管理岗，字节跳动大厂薪资领先，团队负责人，综合竞争力强。

职位详情

关于这个职位

这个职位是字节跳动Coze方向下的Agent数据与评测团队Leader，负责构建和优化AI Agent的评测体系

你将带领团队搭建评测基建设工作流，包括数据采集、自动化评测、问题定位等，并与业务、策略、产品等多团队协同，推动大模型效果的持续迭代

适合有技术背景和团队管理经验的AI从业者

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业，具有5年以上大模型相关工作经验

有团队管理经验或团队负责人潜力，具备良好的业务沟通能力和跨团队协同能力，能够推动复杂项目落地

具备扎实的工程能力和数据分析能力，熟练掌握Python、Go、C++中至少一种

工作职责

负责各场景的评测体系建设与团队管理，覆盖编程、Claw、垂类Agent等方向，支撑效果评估、问题定位和迭代闭环

主导评测基建的0-1搭建和长期建设，包括评测产线、数据分析链路、自动化评测能力等

负责Benchmark和高质量评测数据建设，包括数据设计、采集、合成、治理与持续迭代

协同业务、策略、产品、研发等团队，共同对的效果迭代负责

优先资格

有Agent开发或复杂场景评测经验者优先，在相关会议发表过论文者优先

AI 洞察

优缺点分析

优点

字节跳动平台大，技术资源丰富，能接触到前沿的大模型和Agent技术
职位兼具技术和管理，职业发展空间大，薪资福利有竞争力
评测是AI落地的关键环节，个人能力能得到快速积累和行业认可
团队管理经验要求高，需要协调多个部门，沟通成本较大
北京办公地点，可能面临通勤和加班问题

缺点 / 挑战

大模型技术迭代快，评测体系需不断更新，工作压力较大
适合有技术背景、喜欢挑战、希望在AI领域同时发展技术和管理的求职者

角色解读

成长为AI评测领域的专家，主导行业评测标准制定
晋升为技术总监或更高管理岗位，负责更大范围的AI基础设施
积累多场景经验后，可转向AI产品、策略或综合管理方向
负责搭建和优化AI Agent的评测体系，包括数据设计、自动化评测流程和效果分析
领导团队进行评测基建的从0到1建设，如评测产线、数据链路和自动化工具
与业务、策略、产品等团队协作，推动大模型效果迭代和问题定位
扎实的工程能力，精通Python、Go或C++，能搭建评测系统和数据管道
数据分析能力，能从评测结果中提取洞察并驱动改进
团队管理和跨部门协同能力，能推动复杂项目落地

申请策略

了解字节跳动Coze产品方向，思考评测如何赋能Agent效果提升
在面试中准备系统设计题，如设计一个复杂的评测系统
突出过往评测体系建设或数据平台的经历，量化成果（如评测效率提升）
强调团队管理或项目推动经验，展示跨部门协作案例
列出掌握的技术栈（Python、Go、C++）和数据分析相关项目
如果缺乏团队管理经验，可提前学习项目管理方法或带小团队实践
补充大模型评测方法论，如Benchmark设计、自动化评测工具

面试指南

使用STAR法则：情境-任务-行动-结果，突出系统思维和数据驱动
对于设计问题，从需求、架构、数据流、迭代周期逐步展开
对于冲突问题，展示沟通和权衡能力，强调以效果为导向
如何设计一个覆盖多场景的AI评测体系？
请分享一个你带队推动复杂项目落地的案例
如何保证评测数据的质量和一致性？
当业务方和评测结果冲突时，你如何处理？
复习大模型基本原理和Agent架构，了解主流Benchmark

职位点评

综合评分

字节AI评测Leader，薪资优厚、技术前沿，但工作强度高、WLB一般。

更适合这类人

该职位最适合以薪资和职业发展为首要动机的求职者。

表现最好

薪资福利

相对薄弱

工作生活

薪资福利90

成长发展85

工作生活40

使命价值60

薪资福利

90较高

字节跳动薪资在行业内有竞争力，且该岗位为管理职级，期权和奖金优厚，能很好满足经济需求。

薪资信号未披露（AI估算：45K-75K/月）

成长发展

85较高

该职位聚焦大模型评测前沿方向，能深入接触Agent技术，并有管理实践机会，成长空间大。

技术前沿前沿/新兴技术

技术栈大模型、Agent、评测、数据分析

业务类型ambiguous

工作生活

40较低

北京办公且字节通常有较高强度，JD未提及弹性工作，WLB可能不佳。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

AI评测对行业有间接贡献，但岗位更偏向技术支撑，使命感一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

Agent数据与评测Leader（Coze方向）-Dev Infra

立即应聘

Agent数据与评测Leader（Coze方向）-Dev Infra

发布于大约 2 个月前

中层管理(经理/总监)

北京市

高级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

团队管理

大模型评测

数据分析

数据合成

AI 估算 · 45k–75k

高级AI评测管理岗，字节跳动大厂薪资领先，团队负责人，综合竞争力强。

职位详情

关于这个职位

这个职位是字节跳动Coze方向下的Agent数据与评测团队Leader，负责构建和优化AI Agent的评测体系

你将带领团队搭建评测基建设工作流，包括数据采集、自动化评测、问题定位等，并与业务、策略、产品等多团队协同，推动大模型效果的持续迭代

适合有技术背景和团队管理经验的AI从业者

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业，具有5年以上大模型相关工作经验

有团队管理经验或团队负责人潜力，具备良好的业务沟通能力和跨团队协同能力，能够推动复杂项目落地

具备扎实的工程能力和数据分析能力，熟练掌握Python、Go、C++中至少一种

工作职责

负责各场景的评测体系建设与团队管理，覆盖编程、Claw、垂类Agent等方向，支撑效果评估、问题定位和迭代闭环

主导评测基建的0-1搭建和长期建设，包括评测产线、数据分析链路、自动化评测能力等

负责Benchmark和高质量评测数据建设，包括数据设计、采集、合成、治理与持续迭代

协同业务、策略、产品、研发等团队，共同对的效果迭代负责

优先资格

有Agent开发或复杂场景评测经验者优先，在相关会议发表过论文者优先

AI 洞察

优缺点分析

优点

字节跳动平台大，技术资源丰富，能接触到前沿的大模型和Agent技术
职位兼具技术和管理，职业发展空间大，薪资福利有竞争力
评测是AI落地的关键环节，个人能力能得到快速积累和行业认可
团队管理经验要求高，需要协调多个部门，沟通成本较大
北京办公地点，可能面临通勤和加班问题

缺点 / 挑战

大模型技术迭代快，评测体系需不断更新，工作压力较大
适合有技术背景、喜欢挑战、希望在AI领域同时发展技术和管理的求职者

角色解读

成长为AI评测领域的专家，主导行业评测标准制定
晋升为技术总监或更高管理岗位，负责更大范围的AI基础设施
积累多场景经验后，可转向AI产品、策略或综合管理方向
负责搭建和优化AI Agent的评测体系，包括数据设计、自动化评测流程和效果分析
领导团队进行评测基建的从0到1建设，如评测产线、数据链路和自动化工具
与业务、策略、产品等团队协作，推动大模型效果迭代和问题定位
扎实的工程能力，精通Python、Go或C++，能搭建评测系统和数据管道
数据分析能力，能从评测结果中提取洞察并驱动改进
团队管理和跨部门协同能力，能推动复杂项目落地

申请策略

了解字节跳动Coze产品方向，思考评测如何赋能Agent效果提升
在面试中准备系统设计题，如设计一个复杂的评测系统
突出过往评测体系建设或数据平台的经历，量化成果（如评测效率提升）
强调团队管理或项目推动经验，展示跨部门协作案例
列出掌握的技术栈（Python、Go、C++）和数据分析相关项目
如果缺乏团队管理经验，可提前学习项目管理方法或带小团队实践
补充大模型评测方法论，如Benchmark设计、自动化评测工具

面试指南

使用STAR法则：情境-任务-行动-结果，突出系统思维和数据驱动
对于设计问题，从需求、架构、数据流、迭代周期逐步展开
对于冲突问题，展示沟通和权衡能力，强调以效果为导向
如何设计一个覆盖多场景的AI评测体系？
请分享一个你带队推动复杂项目落地的案例
如何保证评测数据的质量和一致性？
当业务方和评测结果冲突时，你如何处理？
复习大模型基本原理和Agent架构，了解主流Benchmark

职位点评

综合评分

字节AI评测Leader，薪资优厚、技术前沿，但工作强度高、WLB一般。

更适合这类人

该职位最适合以薪资和职业发展为首要动机的求职者。

表现最好

薪资福利

相对薄弱

工作生活

薪资福利90

成长发展85

工作生活40

使命价值60

薪资福利

90较高

字节跳动薪资在行业内有竞争力，且该岗位为管理职级，期权和奖金优厚，能很好满足经济需求。

薪资信号未披露（AI估算：45K-75K/月）

成长发展

85较高

该职位聚焦大模型评测前沿方向，能深入接触Agent技术，并有管理实践机会，成长空间大。

技术前沿前沿/新兴技术

技术栈大模型、Agent、评测、数据分析

业务类型ambiguous

工作生活

40较低

北京办公且字节通常有较高强度，JD未提及弹性工作，WLB可能不佳。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

AI评测对行业有间接贡献，但岗位更偏向技术支撑，使命感一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

Agent数据与评测Leader（Coze方向）-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Agent数据与评测Leader（Coze方向）-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

字节跳动的其他在招职位