字节跳动的Agent数据与评测Leader（Coze方向）-Dev Infra薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

Agent数据与评测Leader（Coze方向）-Dev Infra的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的Agent数据与评测Leader（Coze方向）-Dev Infra有什么任职要求？

该职位要求本科学历及高级经验工作经验。

字节跳动

Agent数据与评测Leader（Coze方向）-Dev Infra

立即应聘

Agent数据与评测Leader（Coze方向）-Dev Infra

发布于大约 2 个月前

中层管理(经理/总监)

上海市

高级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

团队管理

大模型

数据分析

数据建设

评测

AI 估算 · 35k–60k

AI评测Leader岗位，技术门槛高，大厂薪资竞争力强，月薪35k-60k，15薪。

职位详情

关于这个职位

该职位负责大模型Agent的评测体系建设与团队管理，包括搭建评测基建、建设Benchmark和高质量数据，协同多部门推动效果迭代

适合有AI评测和团队管理经验的技术人才，是字节跳动Coze方向的核心岗位之一

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业，具有5年以上大模型相关工作经验

有团队管理经验或团队负责人潜力，具备良好的业务沟通能力和跨团队协同能力，能够推动复杂项目落地

具备扎实的工程能力和数据分析能力，熟练掌握Python、Go、C++中至少一种

工作职责

负责各场景的评测体系建设与团队管理，覆盖编程、Claw、垂类Agent等方向，支撑效果评估、问题定位和迭代闭环

主导评测基建的0-1搭建和长期建设，包括评测产线、数据分析链路、自动化评测能力等

负责Benchmark和高质量评测数据建设，包括数据设计、采集、合成、治理与持续迭代

协同业务、策略、产品、研发等团队，共同对效果迭代负责

优先资格

有Agent开发或复杂场景评测经验者优先，在相关会议发表过论文者优先

AI 洞察

优缺点分析

优点

字节跳动平台资源丰富，Coze是核心AI方向，能接触业界前沿的大模型技术和真实业务场景
评测Leader岗位兼具技术深度和管理广度，职业发展空间大，薪资待遇优厚
团队氛围技术驱动，能参与从0到1的基建搭建，技术影响力强
大模型技术迭代快，评测标准和方法也需要快速演进，对学习能力和技术敏锐度要求高
适合有大模型/评测背景、渴望管理团队并推动技术落地的资深工程师或技术负责人

缺点 / 挑战

评测体系建设涉及多团队协同，沟通协调难度较高，需较强的推动力
作为Leader需承担团队管理和项目交付双重压力，工作强度可能较大

角色解读

技术方向：从评测Leader向AI技术专家发展，深入大模型评测前沿，成为行业评测标准制定者
管理方向：晋升为Dev Infra或AI平台部门负责人，管理更大规模的技术团队和业务方向
业务方向：转向Agent产品研发或AI解决方案架构，利用评测经验推动业务创新
负责大模型Agent在各场景下的评测体系建设，包括效果评估、问题定位和迭代闭环，并带领团队完成目标
搭建评测基础设施，如评测产线、数据分析链路和自动化评测工具，从0到1推动落地
建设高质量Benchmark和评测数据，涉及数据设计、采集、合成和治理，确保数据可靠性和覆盖度
跨团队协同业务、策略、产品、研发，共同对模型效果迭代负责，推动项目整体进展
深入理解大模型和Agent技术，具备5年以上相关经验，熟悉评测方法论
扎实的工程能力，精通Python、Go或C++，能快速搭建工程化评测系统
优秀的数据分析能力，能从海量数据中提取洞察，指导效果优化
团队管理和跨部门沟通能力，能有效协调多方资源，推动复杂项目落地

申请策略

申请时可附上个人在评测领域的技术博客或开源项目，展现技术热情
面试前了解字节跳动Coze产品方向，准备对该业务评测痛点的思考和建议
突出大模型或Agent相关的项目经验，特别是评测体系设计、数据建设和自动化工具的开发案例
量化成果，如提升评测效率X%、发现某类问题并推动解决、建设Benchmark的覆盖度等
强调团队管理或项目主导经历，展示跨团队协同能力和领导潜力
列出相关论文或技术分享，证明技术深度和行业影响力
补强自动化评测和数据分析工具链（如pytest、CI/CD、数据可视化）的实践经验
深入理解主流大模型评测标准（如MMLU、HumanEval等）和Agent评测前沿方法

面试指南

针对项目类问题，采用STAR原则：背景、任务、行动、结果，突出个人贡献和量化成果
针对设计类问题，先明确目标，再分维度拆解，最后给出具体方案和优先级
针对团队管理问题，强调目标对齐、任务分解、沟通机制和风险控制
请描述你过去负责的一个大模型评测项目，包括架构设计、数据来源、评测指标和遇到的挑战
如何评估一个Agent在复杂场景下的表现？你会设计哪些维度的评测指标？
你如何管理一个技术团队？请举例说明你是如何推动跨团队协作的
如何从0到1搭建一个自动化评测平台？关键模块和设计思路是什么？
对于大模型评测中的数据偏见问题，你有什么解决思路？

职位点评

综合评分

字节跳动AI评测Leader，前沿技术栈，薪资高，成长空间大，但工作强度较高。

更适合这类人

适合追求技术成长、管理经验和薪资回报，但能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

薪资待遇优厚，大厂福利齐全，但JD未明确薪资和福利细节，仅可从公司层面推断。

薪资信号未披露（AI估算：35K-60K/月）

成长发展

90较高

技术前沿（大模型Agent），能参与从0到1的基建，成长空间大，但JD未明确培训或晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、Agent、评测、Python、Go、C++

业务类型profit_center

工作生活

40较低

仅现场办公，没有弹性工作迹象，互联网大厂通常工作强度较高，WLB可能一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

AI是高速增长赛道，评测工作对模型质量有直接影响，但职位本身定位偏技术与工程，社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

Agent数据与评测Leader（Coze方向）-Dev Infra

立即应聘

Agent数据与评测Leader（Coze方向）-Dev Infra

发布于大约 2 个月前

中层管理(经理/总监)

上海市

高级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

团队管理

大模型

数据分析

数据建设

评测

AI 估算 · 35k–60k

AI评测Leader岗位，技术门槛高，大厂薪资竞争力强，月薪35k-60k，15薪。

职位详情

关于这个职位

该职位负责大模型Agent的评测体系建设与团队管理，包括搭建评测基建、建设Benchmark和高质量数据，协同多部门推动效果迭代

适合有AI评测和团队管理经验的技术人才，是字节跳动Coze方向的核心岗位之一

最低要求

本科及以上学历，计算机科学、人工智能、数学等相关专业，具有5年以上大模型相关工作经验

有团队管理经验或团队负责人潜力，具备良好的业务沟通能力和跨团队协同能力，能够推动复杂项目落地

具备扎实的工程能力和数据分析能力，熟练掌握Python、Go、C++中至少一种

工作职责

负责各场景的评测体系建设与团队管理，覆盖编程、Claw、垂类Agent等方向，支撑效果评估、问题定位和迭代闭环

主导评测基建的0-1搭建和长期建设，包括评测产线、数据分析链路、自动化评测能力等

负责Benchmark和高质量评测数据建设，包括数据设计、采集、合成、治理与持续迭代

协同业务、策略、产品、研发等团队，共同对效果迭代负责

优先资格

有Agent开发或复杂场景评测经验者优先，在相关会议发表过论文者优先

AI 洞察

优缺点分析

优点

字节跳动平台资源丰富，Coze是核心AI方向，能接触业界前沿的大模型技术和真实业务场景
评测Leader岗位兼具技术深度和管理广度，职业发展空间大，薪资待遇优厚
团队氛围技术驱动，能参与从0到1的基建搭建，技术影响力强
大模型技术迭代快，评测标准和方法也需要快速演进，对学习能力和技术敏锐度要求高
适合有大模型/评测背景、渴望管理团队并推动技术落地的资深工程师或技术负责人

缺点 / 挑战

评测体系建设涉及多团队协同，沟通协调难度较高，需较强的推动力
作为Leader需承担团队管理和项目交付双重压力，工作强度可能较大

角色解读

技术方向：从评测Leader向AI技术专家发展，深入大模型评测前沿，成为行业评测标准制定者
管理方向：晋升为Dev Infra或AI平台部门负责人，管理更大规模的技术团队和业务方向
业务方向：转向Agent产品研发或AI解决方案架构，利用评测经验推动业务创新
负责大模型Agent在各场景下的评测体系建设，包括效果评估、问题定位和迭代闭环，并带领团队完成目标
搭建评测基础设施，如评测产线、数据分析链路和自动化评测工具，从0到1推动落地
建设高质量Benchmark和评测数据，涉及数据设计、采集、合成和治理，确保数据可靠性和覆盖度
跨团队协同业务、策略、产品、研发，共同对模型效果迭代负责，推动项目整体进展
深入理解大模型和Agent技术，具备5年以上相关经验，熟悉评测方法论
扎实的工程能力，精通Python、Go或C++，能快速搭建工程化评测系统
优秀的数据分析能力，能从海量数据中提取洞察，指导效果优化
团队管理和跨部门沟通能力，能有效协调多方资源，推动复杂项目落地

申请策略

申请时可附上个人在评测领域的技术博客或开源项目，展现技术热情
面试前了解字节跳动Coze产品方向，准备对该业务评测痛点的思考和建议
突出大模型或Agent相关的项目经验，特别是评测体系设计、数据建设和自动化工具的开发案例
量化成果，如提升评测效率X%、发现某类问题并推动解决、建设Benchmark的覆盖度等
强调团队管理或项目主导经历，展示跨团队协同能力和领导潜力
列出相关论文或技术分享，证明技术深度和行业影响力
补强自动化评测和数据分析工具链（如pytest、CI/CD、数据可视化）的实践经验
深入理解主流大模型评测标准（如MMLU、HumanEval等）和Agent评测前沿方法

面试指南

针对项目类问题，采用STAR原则：背景、任务、行动、结果，突出个人贡献和量化成果
针对设计类问题，先明确目标，再分维度拆解，最后给出具体方案和优先级
针对团队管理问题，强调目标对齐、任务分解、沟通机制和风险控制
请描述你过去负责的一个大模型评测项目，包括架构设计、数据来源、评测指标和遇到的挑战
如何评估一个Agent在复杂场景下的表现？你会设计哪些维度的评测指标？
你如何管理一个技术团队？请举例说明你是如何推动跨团队协作的
如何从0到1搭建一个自动化评测平台？关键模块和设计思路是什么？
对于大模型评测中的数据偏见问题，你有什么解决思路？

职位点评

综合评分

字节跳动AI评测Leader，前沿技术栈，薪资高，成长空间大，但工作强度较高。

更适合这类人

适合追求技术成长、管理经验和薪资回报，但能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

薪资待遇优厚，大厂福利齐全，但JD未明确薪资和福利细节，仅可从公司层面推断。

薪资信号未披露（AI估算：35K-60K/月）

成长发展

90较高

技术前沿（大模型Agent），能参与从0到1的基建，成长空间大，但JD未明确培训或晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、Agent、评测、Python、Go、C++

业务类型profit_center

工作生活

40较低

仅现场办公，没有弹性工作迹象，互联网大厂通常工作强度较高，WLB可能一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

AI是高速增长赛道，评测工作对模型质量有直接影响，但职位本身定位偏技术与工程，社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

Agent数据与评测Leader（Coze方向）-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Agent数据与评测Leader（Coze方向）-Dev Infra

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

字节跳动的其他在招职位