Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Agent数据&评测工程师/专家-Dev Infra
立即应聘

Agent数据&评测工程师/专家-Dev Infra

发布于 1 天前

普通员工/个人贡献者

杭州市
中级经验
全职员工
仅现场办公
本科
数据分析
数据工程
GO
LLM
Agent评测
自动化基建

AI 估算 · 25k–45k

字节跳动资深技术岗,杭州互联网薪资水平较高,岗位要求1年以上大模型经验,且涉及前沿Agent评测,薪资有竞争力。

职位详情

关于这个职位

该职位负责 LLM 在编程、个人助理等场景的 Agent 评测与数据建设,制定评测标准、开发自动化评测基建,并构建高质量数据集以提升模型能力

适合对 AI 评测、数据工程有热情的技术人才,可深入参与前沿大模型应用落地

最低要求

本科及以上学历,计算机科学、人工智能、数学等相关专业,具有1年以上大模型相关工作经验

具备优秀的编码能力,扎实的数据结构和算法功底,至少熟练掌握C/C++/Go/Python一种开发语言
有Agent开发或复杂场景评测经验者优先,在相关会议发表过论文者优先
聪明且对探索未知领域有强烈兴趣,具备问题解决能力与自驱力者优先

工作职责

深入探索LLM在编程、个人助理等各种场景中的应用,支持TRAE、扣子等业务的端到端评测工作,Agent评测、调优和自迭代等相关工作

制定评测标准,开发评测Agent,建设自动化评测基建,同时通过数据分析与算法改进,持续探索创新的评测方法
构建大规模高质量的数据(数据建设、数据抓取与解析、数据合成等),提出更好的Benchmark,度量Agent和模型能力
关注行业动态与技术趋势,及时引入新的技术和理念,跟随团队校企横向项目、学术论坛会议、发布论文等,协助团队构建学术界影响力

AI 洞察

优缺点分析

优点

  • 处于 AI 大模型前沿领域,技术成长空间大,积累 Agent 评测与数据工程核心经验
  • 字节跳动平台资源丰富,业务场景(TRAE、扣子)落地性强,成果易被广泛使用
  • 团队注重学术影响力,有发论文、参加顶会的机会,利于个人品牌建设
  • 薪资福利有竞争力,且技术栈新颖,未来职业选择灵活
  • 评测标准与自动化基建的初期建设难度大,需要较强的问题拆解和工程能力
  • 数据构建与质量控制需要耐心与细致,可能面临数据稀缺或标注困难
  • 适合对 LLM 与 Agent 评测有浓厚兴趣、喜欢技术钻研和创新的工程师,尤其是有一定经验并希望深耕 AI 评测方向的人

缺点 / 挑战

  • 大模型领域迭代快速,需要持续学习与跟进最新技术,工作强度可能较高

角色解读

  • 向资深评测专家或技术负责人方向发展,主导复杂场景的评测体系搭建
  • 横向拓展至大模型训练、算法优化等方向,提升综合技术深度
  • 可转向数据科学或 AI 产品经理,利用评测经验推动业务落地
  • 负责 LLM 在编程、个人助理等场景的 Agent 评测工作,制定评测标准并开发自动化评测工具
  • 构建大规模高质量的数据集,优化数据采集、合成与解析流程,提出更好的基准测试
  • 通过数据分析和算法改进,持续探索创新的评测方法,推动 Agent 能力的提升
  • 关注行业趋势,参与校企合作、学术论坛与论文发表,提升团队学术界影响力
  • 精通 Python、Go、C++ 等至少一种编程语言,具备扎实的数据结构和算法基础
  • 了解大模型与 Agent 评测原理,有相关项目或论文经验者优先
  • 擅长数据处理与自动化工具开发,能独立建设评测基建
  • 具备较强的问题解决能力和自驱力,对未知领域有探索热情

申请策略

  • 了解字节跳动及 TRAE、扣子业务的产品定位,在面试中展现你对业务场景的理解
  • 准备一个你精心设计的评测方案或数据构建思路,体现创新与工程落地能力
  • 突出大模型相关项目经验,特别是 Agent 开发或评测的具体案例,说明你的贡献和成果
  • 强调编程能力和数据结构功底,可附上 GitHub 链接或技术博客
  • 如有论文、开源项目或竞赛奖项,务必列出,体现学术与技术潜力
  • 用量化指标说明数据建设或评测效率的提升,如“将评测自动化覆盖率提升至 90%”
  • 补充强化学习或 LLM 微调相关知识,有助于理解 Agent 评测的深层逻辑
  • 熟练掌握数据处理工具(如 Spark、Ray)和自动化测试框架(如 Pytest、Selenium)

面试指南

  • 结构化回答:先明确目标与范围,再分步骤说明方案(数据采集、指标设计、自动化流程、结果分析)
  • 结合经验:用具体案例支撑,突出你的技术与思考,并提及迭代优化过程
  • 展现学习能力:对不熟悉的问题,可坦诚并表达你的分析思路与学习计划
  • 如何设计一个针对 LLM 编程助手的端到端评测方案?
  • 请描述一次你构建大规模数据集的经验,如何保证数据质量与多样性?
  • 什么是 Agent 评测中常见的陷阱?如何避免?
  • 如果你发现有评测指标与实际用户体验不符,你会如何调整?
  • 你对当前主流 Agent 框架(如 LangChain、AutoGPT)的评测方法有什么看法?

匹配度报告

74
综合匹配度

字节跳动前沿 Agent 评测与数据工程岗,技术成长极高,薪资优厚,但 WLB 一般。

适合人群
最适合重视技术成长和前沿探索的求职者,能接受互联网工作节奏,对薪资和未来发展有较高期望。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活50
使命价值75

薪资福利匹配

80较高

字节跳动薪资偏高,福利完善(五险一金、补充医疗、年终奖),但具体薪资需面议,整体补偿性动机满足度高。

薪资信号面议 (25K-45K/月)

成长发展匹配

90较高

前沿技术栈(LLM、Agent),团队注重学术与工程结合,有论文发表机会,成长空间极大。

技术前沿前沿/新兴技术
技术栈LLM、Agent评测、自动化基建、数据合成、Benchmark
成长机会发布论文、构建学术界影响力
业务类型ambiguous

工作生活匹配

50较低

默认现场办公,未提及弹性工作或 WLB,互联网大厂通常有加班文化,生活化动机满足度一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

75中等

AI 行业高速增长,工作推动 Agent 技术落地,有一定社会价值,但使命导向并不强。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k