Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Agent数据与评测Leader(Coze方向)-Dev Infra
立即应聘

Agent数据与评测Leader(Coze方向)-Dev Infra

发布于 1 天前

中层管理(经理/总监)

北京市
高级经验
全职员工
仅现场办公
本科
团队管理
数据分析
GO
数据合成
大模型评测

AI 估算 · 45k–75k

高级AI评测管理岗,字节跳动大厂薪资领先,团队负责人,综合竞争力强。

职位详情

关于这个职位

这个职位是字节跳动Coze方向下的Agent数据与评测团队Leader,负责构建和优化AI Agent的评测体系

你将带领团队搭建评测基建设工作流,包括数据采集、自动化评测、问题定位等,并与业务、策略、产品等多团队协同,推动大模型效果的持续迭代
适合有技术背景和团队管理经验的AI从业者

最低要求

本科及以上学历,计算机科学、人工智能、数学等相关专业,具有5年以上大模型相关工作经验

有团队管理经验或团队负责人潜力,具备良好的业务沟通能力和跨团队协同能力,能够推动复杂项目落地
具备扎实的工程能力和数据分析能力,熟练掌握Python、Go、C++中至少一种

工作职责

负责各场景的评测体系建设与团队管理,覆盖编程、Claw、垂类Agent等方向,支撑效果评估、问题定位和迭代闭环

主导评测基建的0-1搭建和长期建设,包括评测产线、数据分析链路、自动化评测能力等
负责Benchmark和高质量评测数据建设,包括数据设计、采集、合成、治理与持续迭代
协同业务、策略、产品、研发等团队,共同对的效果迭代负责

优先资格

有Agent开发或复杂场景评测经验者优先,在相关会议发表过论文者优先

AI 洞察

优缺点分析

优点

  • 字节跳动平台大,技术资源丰富,能接触到前沿的大模型和Agent技术
  • 职位兼具技术和管理,职业发展空间大,薪资福利有竞争力
  • 评测是AI落地的关键环节,个人能力能得到快速积累和行业认可
  • 团队管理经验要求高,需要协调多个部门,沟通成本较大
  • 北京办公地点,可能面临通勤和加班问题

缺点 / 挑战

  • 大模型技术迭代快,评测体系需不断更新,工作压力较大
  • 适合有技术背景、喜欢挑战、希望在AI领域同时发展技术和管理的求职者

角色解读

  • 成长为AI评测领域的专家,主导行业评测标准制定
  • 晋升为技术总监或更高管理岗位,负责更大范围的AI基础设施
  • 积累多场景经验后,可转向AI产品、策略或综合管理方向
  • 负责搭建和优化AI Agent的评测体系,包括数据设计、自动化评测流程和效果分析
  • 领导团队进行评测基建的从0到1建设,如评测产线、数据链路和自动化工具
  • 与业务、策略、产品等团队协作,推动大模型效果迭代和问题定位
  • 扎实的工程能力,精通Python、Go或C++,能搭建评测系统和数据管道
  • 数据分析能力,能从评测结果中提取洞察并驱动改进
  • 团队管理和跨部门协同能力,能推动复杂项目落地

申请策略

  • 了解字节跳动Coze产品方向,思考评测如何赋能Agent效果提升
  • 在面试中准备系统设计题,如设计一个复杂的评测系统
  • 突出过往评测体系建设或数据平台的经历,量化成果(如评测效率提升)
  • 强调团队管理或项目推动经验,展示跨部门协作案例
  • 列出掌握的技术栈(Python、Go、C++)和数据分析相关项目
  • 如果缺乏团队管理经验,可提前学习项目管理方法或带小团队实践
  • 补充大模型评测方法论,如Benchmark设计、自动化评测工具

面试指南

  • 使用STAR法则:情境-任务-行动-结果,突出系统思维和数据驱动
  • 对于设计问题,从需求、架构、数据流、迭代周期逐步展开
  • 对于冲突问题,展示沟通和权衡能力,强调以效果为导向
  • 如何设计一个覆盖多场景的AI评测体系?
  • 请分享一个你带队推动复杂项目落地的案例
  • 如何保证评测数据的质量和一致性?
  • 当业务方和评测结果冲突时,你如何处理?
  • 复习大模型基本原理和Agent架构,了解主流Benchmark

匹配度报告

69
综合匹配度

字节AI评测Leader,薪资优厚、技术前沿,但工作强度高、WLB一般。

适合人群
该职位最适合以薪资和职业发展为首要动机的求职者。
最强匹配
薪资福利匹配
最弱匹配
工作生活匹配
薪资福利90
成长发展85
工作生活40
使命价值60

薪资福利匹配

90较高

字节跳动薪资在行业内有竞争力,且该岗位为管理职级,期权和奖金优厚,能很好满足经济需求。

薪资信号未披露(AI估算:45K-75K/月)

成长发展匹配

85较高

该职位聚焦大模型评测前沿方向,能深入接触Agent技术,并有管理实践机会,成长空间大。

技术前沿前沿/新兴技术
技术栈大模型、Agent、评测、数据分析
业务类型ambiguous

工作生活匹配

40较低

北京办公且字节通常有较高强度,JD未提及弹性工作,WLB可能不佳。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

AI评测对行业有间接贡献,但岗位更偏向技术支撑,使命感一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k