Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Agent数据与评测Leader(Coze方向)-Dev Infra
立即应聘

Agent数据与评测Leader(Coze方向)-Dev Infra

发布于 1 天前

中层管理(经理/总监)

杭州市
高级经验
全职员工
仅现场办公
本科
团队管理
GO
大模型
数据建设
评测体系

AI 估算 · 35k–60k

字节跳动大厂AI方向资深技术+管理岗,薪资竞争力强,月薪35K-60K合理。

职位详情

关于这个职位

该职位负责Coze方向Agent数据与评测体系的建设与团队管理,需要带领团队搭建评测基建、建设Benchmark和高质量数据集,并协同多部门推动效果迭代

适合具备大模型评测背景、工程能力强且有管理潜力的资深技术人才

最低要求

本科及以上学历,计算机科学、人工智能、数学等相关专业,具有5年以上大模型相关工作经验

有团队管理经验或团队负责人潜力,具备良好的业务沟通能力和跨团队协同能力,能够推动复杂项目落地
具备扎实的工程能力和数据分析能力,熟练掌握Python、Go、C++中至少一种

工作职责

负责各场景的评测体系建设与团队管理,覆盖编程、Claw、垂类Agent等方向,支撑效果评估、问题定位和迭代闭环

主导评测基建的0-1搭建和长期建设,包括评测产线、数据分析链路、自动化评测能力等
负责Benchmark和高质量评测数据建设,包括数据设计、采集、合成、治理与持续迭代
协同业务、策略、产品、研发等团队,共同对的效果迭代负责

优先资格

有Agent开发或复杂场景评测经验者优先,在相关会议发表过论文者优先

AI 洞察

优缺点分析

优点

  • 字节跳动平台,接触前沿大模型技术,业务影响大
  • 管理岗位,可锻炼团队领导力和跨部门协调能力
  • 薪资福利优厚,大厂标配
  • 评测体系建设需要同时兼顾工程和数据,技术广度要求高
  • AI领域更新快,需要持续学习保持技术敏感度
  • 适合有5年以上大模型经验、具备管理和工程能力、希望在AI评测领域深耕的技术专家

缺点 / 挑战

  • 从0到1搭建评测体系,挑战性高,个人成长快
  • 跨团队协作频繁,沟通成本较高

角色解读

  • 在字节跳动AI基础设施团队,可晋升为更高级别的技术管理或架构师
  • 通过主导评测体系,成为大模型质量保障领域的专家
  • 可横向拓展至更广泛的AI Infra方向,如训练、推理等
  • 带领团队构建Agent评测体系,覆盖编程、Claw、垂类Agent等场景,确保效果评估与问题定位
  • 主导评测基建从0到1的搭建,包括评测产线、自动化工具和数据分析链路
  • 负责Benchmark和高质量评测数据的设计、采集、合成与持续迭代
  • 跨团队协同(业务、策略、产品、研发),推动效果迭代闭环
  • 扎实的工程能力,熟练使用Python、Go、C++等至少一种编程语言
  • 丰富的大模型评测经验,熟悉评测方法论和自动化流程
  • 数据分析能力,能从数据中发现问题并驱动改进
  • 团队管理与跨部门协作能力,能推动复杂项目落地

申请策略

  • 理解Coze和字节跳动AI生态,在面试中展现对业务场景的洞察
  • 准备一个评测体系建设方案,展示系统性思考
  • 突出大模型评测相关项目经验,特别是从0到1搭建评测体系的经历
  • 强调团队管理或项目领导经验,包括团队规模、跨部门协调案例
  • 展示工程能力,如编程语言熟练度、自动化工具开发
  • 如有Agent开发或论文发表,务必重点提及
  • 如果缺乏评测体系搭建经验,可先自学相关方法论,如自动化评测工具链
  • 补充Agent开发知识,了解Claw等场景

面试指南

  • STAR法则:情境-任务-行动-结果,特别是项目背景和你的具体贡献
  • 系统性思维:先谈整体架构,再细化到技术细节
  • 数据驱动:强调用数据说话,量化指标和改进效果
  • 请描述你之前负责的大模型评测项目,如何设计评测指标?
  • 如何搭建一个自动化的评测产线?技术选型考虑哪些?
  • 团队管理经验:如何分配任务、跟进进度、处理冲突?
  • 如何与产品、研发等团队协作推动评测结果落地?
  • 对Agent场景的评测有什么独特见解?与传统NLU评测有何不同?

匹配度报告

70
综合匹配度

字节跳动AI基础设施团队,前沿技术栈+管理机会,薪资优厚但工作强度较大。

适合人群
适合追求技术成长和职业发展、能接受较高工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展85
工作生活45
使命价值70

薪资福利匹配

80较高

字节跳动作为上市公司,薪资福利具有竞争力,但JD未明确薪资范围,可推测为市场偏高水准。

薪资信号未披露(AI估算:35K-60K/月)

成长发展匹配

85较高

职位负责前沿大模型评测体系建设,技术挑战大,个人成长空间广阔,但JD未提及培训或晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、Agent、Coze、评测体系、自动化
业务类型profit_center

工作生活匹配

45较低

工作地点杭州,仅现场办公,未提及弹性工作或WLB,大厂通常工作强度较高。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

70中等

AI行业高速增长,职位对技术发展方向有较大影响,但社会价值中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 数据工程师

    中国平安 · 深圳市
    AI 估算 · 25k-35k
  • 内容安全引擎架构师

    小红书 · 北京市
    AI 估算 · 50k-80k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 数据工程师

    中国平安 · 深圳市
    AI 估算 · 25k-35k
  • 内容安全引擎架构师

    小红书 · 北京市
    AI 估算 · 50k-80k