Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Agent数据与评测Leader(Coze方向)-Dev Infra
立即应聘

Agent数据与评测Leader(Coze方向)-Dev Infra

发布于 1 天前

中层管理(经理/总监)

上海市
高级经验
全职员工
仅现场办公
本科
团队管理
数据分析
GO
大模型
评测
数据建设

AI 估算 · 35k–60k

AI评测Leader岗位,技术门槛高,大厂薪资竞争力强,月薪35k-60k,15薪。

职位详情

关于这个职位

该职位负责大模型Agent的评测体系建设与团队管理,包括搭建评测基建、建设Benchmark和高质量数据,协同多部门推动效果迭代

适合有AI评测和团队管理经验的技术人才,是字节跳动Coze方向的核心岗位之一

最低要求

本科及以上学历,计算机科学、人工智能、数学等相关专业,具有5年以上大模型相关工作经验

有团队管理经验或团队负责人潜力,具备良好的业务沟通能力和跨团队协同能力,能够推动复杂项目落地
具备扎实的工程能力和数据分析能力,熟练掌握Python、Go、C++中至少一种

工作职责

负责各场景的评测体系建设与团队管理,覆盖编程、Claw、垂类Agent等方向,支撑效果评估、问题定位和迭代闭环

主导评测基建的0-1搭建和长期建设,包括评测产线、数据分析链路、自动化评测能力等
负责Benchmark和高质量评测数据建设,包括数据设计、采集、合成、治理与持续迭代
协同业务、策略、产品、研发等团队,共同对效果迭代负责

优先资格

有Agent开发或复杂场景评测经验者优先,在相关会议发表过论文者优先

AI 洞察

优缺点分析

优点

  • 字节跳动平台资源丰富,Coze是核心AI方向,能接触业界前沿的大模型技术和真实业务场景
  • 评测Leader岗位兼具技术深度和管理广度,职业发展空间大,薪资待遇优厚
  • 团队氛围技术驱动,能参与从0到1的基建搭建,技术影响力强
  • 大模型技术迭代快,评测标准和方法也需要快速演进,对学习能力和技术敏锐度要求高
  • 适合有大模型/评测背景、渴望管理团队并推动技术落地的资深工程师或技术负责人

缺点 / 挑战

  • 评测体系建设涉及多团队协同,沟通协调难度较高,需较强的推动力
  • 作为Leader需承担团队管理和项目交付双重压力,工作强度可能较大

角色解读

  • 技术方向:从评测Leader向AI技术专家发展,深入大模型评测前沿,成为行业评测标准制定者
  • 管理方向:晋升为Dev Infra或AI平台部门负责人,管理更大规模的技术团队和业务方向
  • 业务方向:转向Agent产品研发或AI解决方案架构,利用评测经验推动业务创新
  • 负责大模型Agent在各场景下的评测体系建设,包括效果评估、问题定位和迭代闭环,并带领团队完成目标
  • 搭建评测基础设施,如评测产线、数据分析链路和自动化评测工具,从0到1推动落地
  • 建设高质量Benchmark和评测数据,涉及数据设计、采集、合成和治理,确保数据可靠性和覆盖度
  • 跨团队协同业务、策略、产品、研发,共同对模型效果迭代负责,推动项目整体进展
  • 深入理解大模型和Agent技术,具备5年以上相关经验,熟悉评测方法论
  • 扎实的工程能力,精通Python、Go或C++,能快速搭建工程化评测系统
  • 优秀的数据分析能力,能从海量数据中提取洞察,指导效果优化
  • 团队管理和跨部门沟通能力,能有效协调多方资源,推动复杂项目落地

申请策略

  • 申请时可附上个人在评测领域的技术博客或开源项目,展现技术热情
  • 面试前了解字节跳动Coze产品方向,准备对该业务评测痛点的思考和建议
  • 突出大模型或Agent相关的项目经验,特别是评测体系设计、数据建设和自动化工具的开发案例
  • 量化成果,如提升评测效率X%、发现某类问题并推动解决、建设Benchmark的覆盖度等
  • 强调团队管理或项目主导经历,展示跨团队协同能力和领导潜力
  • 列出相关论文或技术分享,证明技术深度和行业影响力
  • 补强自动化评测和数据分析工具链(如pytest、CI/CD、数据可视化)的实践经验
  • 深入理解主流大模型评测标准(如MMLU、HumanEval等)和Agent评测前沿方法

面试指南

  • 针对项目类问题,采用STAR原则:背景、任务、行动、结果,突出个人贡献和量化成果
  • 针对设计类问题,先明确目标,再分维度拆解,最后给出具体方案和优先级
  • 针对团队管理问题,强调目标对齐、任务分解、沟通机制和风险控制
  • 请描述你过去负责的一个大模型评测项目,包括架构设计、数据来源、评测指标和遇到的挑战
  • 如何评估一个Agent在复杂场景下的表现?你会设计哪些维度的评测指标?
  • 你如何管理一个技术团队?请举例说明你是如何推动跨团队协作的
  • 如何从0到1搭建一个自动化评测平台?关键模块和设计思路是什么?
  • 对于大模型评测中的数据偏见问题,你有什么解决思路?

匹配度报告

71
综合匹配度

字节跳动AI评测Leader,前沿技术栈,薪资高,成长空间大,但工作强度较高。

适合人群
适合追求技术成长、管理经验和薪资回报,但能接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值70

薪资福利匹配

85较高

薪资待遇优厚,大厂福利齐全,但JD未明确薪资和福利细节,仅可从公司层面推断。

薪资信号未披露(AI估算:35K-60K/月)

成长发展匹配

90较高

技术前沿(大模型Agent),能参与从0到1的基建,成长空间大,但JD未明确培训或晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、Agent、评测、Python、Go、C++
业务类型profit_center

工作生活匹配

40较低

仅现场办公,没有弹性工作迹象,互联网大厂通常工作强度较高,WLB可能一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI是高速增长赛道,评测工作对模型质量有直接影响,但职位本身定位偏技术与工程,社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k