Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Agent数据&评测工程师/专家-Dev Infra
立即应聘

Agent数据&评测工程师/专家-Dev Infra

发布于 1 天前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
自动化
数据分析
GO
LLM
评测
数据建设

AI 估算 · 25k–45k

字节跳动作为头部互联网公司,薪资待遇优厚,且该岗位涉及LLM前沿技术,技能溢价较高。

职位详情

关于这个职位

该职位专注于LLM在编程、个人助理等场景的应用,负责Agent评测、数据建设和自动化评测基建

你将深入探索前沿AI技术,制定评测标准,构建大规模高质量数据集,推动Agent和模型能力提升
适合对LLM和Agent有浓厚兴趣的技术人才

最低要求

本科及以上学历,计算机科学、人工智能、数学等相关专业,具有1年以上大模型相关工作经验

具备优秀的编码能力,扎实的数据结构和算法功底,至少熟练掌握C/C++/Go/Python一种开发语言

工作职责

深入探索LLM在编程、个人助理等各种场景中的应用,支持TRAE、扣子等业务的端到端评测工作,Agent评测、调优和自迭代等相关工作

制定评测标准,开发评测Agent,建设自动化评测基建,同时通过数据分析与算法改进,持续探索创新的评测方法
构建大规模高质量的数据(数据建设、数据抓取与解析、数据合成等),提出更好的Benchmark,度量Agent和模型能力
关注行业动态与技术趋势,及时引入新的技术和理念,跟随团队校企横向项目、学术论坛会议、发布论文等,协助团队构建学术界影响力

优先资格

有Agent开发或复杂场景评测经验者优先,在相关会议发表过论文者优先

聪明且对探索未知领域有强烈兴趣,具备问题解决能力与自驱力者优先

AI 洞察

优缺点分析

优点

  • 接触前沿LLM技术,参与业界最先进的Agent评测工作,技术成长快
  • 字节跳动平台资源丰富,数据量大,项目影响力高
  • 团队强调创新和学术产出,有发表论文和参加顶级会议的机会
  • 薪资待遇有竞争力,且有较好的职业发展空间
  • 评测工作涉及复杂场景和多样数据,对问题分析和解决能力要求高
  • 需要跨团队协作,沟通成本较大,对自驱力和主动性要求高

缺点 / 挑战

  • LLM领域迭代极快,需要持续学习新知识,工作强度可能较高
  • 适合对LLM和Agent有强烈兴趣、具备扎实编程能力、喜欢挑战和创新的技术人才

角色解读

  • 从评测工程师向AI算法专家发展,深入Agent和LLM核心技术
  • 横向扩展至模型训练、推理优化等上下游领域,成为全栈AI人才
  • 向技术管理岗发展,带领团队推动评测体系创新
  • 负责LLM在编程、个人助理等场景的端到端评测,包括Agent评测、调优和自迭代
  • 制定评测标准,开发自动化评测工具和基建,通过数据分析持续改进评测方法
  • 构建大规模高质量数据集(数据抓取、解析、合成),提出新的Benchmark度量Agent和模型能力
  • 跟踪行业动态,参与校企合作和学术会议,发表论文,建立学术影响力
  • 扎实的编程和算法功底,熟练掌握C/C++/Go/Python中至少一种
  • 对LLM和Agent有深入理解,具备评测或数据建设经验
  • 数据分析能力,能从评测结果中洞察问题并优化
  • 创新思维和自驱力,能够独立探索未知领域

申请策略

  • 在简历中体现对LLM和Agent的热情,例如个人博客或GitHub项目
  • 面试前了解字节跳动旗下TRAE、扣子等产品,准备相关见解
  • 突出LLM或Agent相关的项目经验,特别是评测、数据构建或模型调优经历
  • 展示编程能力和算法功底,如有开源项目或竞赛获奖更佳
  • 强调数据分析成果,例如通过评测发现模型问题并推动改进的案例
  • 如有学术论文或会议报告经历,务必列出
  • 深入学习Agent框架(如LangChain)和评测方法论
  • 强化Python或Go的数据处理能力,熟悉相关库(如Pandas、NumPy)

面试指南

  • 明确问题目标,拆解为若干子任务,逐一提出解决方案
  • 结合实际项目经验,用STAR法则(情境、任务、行动、结果)组织回答
  • 展示对细节的把控,如数据质量、评测公平性、可扩展性等
  • 如何设计一个Agent在编程场景下的评测方案?请具体说明
  • 请描述你过去参与过的LLM评测项目,遇到的主要挑战及解决方案
  • 如何构建一个高质量的评测数据集?需要考虑哪些因素?
  • 你如何评估一个Agent的自主性和正确性?有哪些指标?
  • 请用Python实现一个简单的自动化评测脚本,处理多轮对话结果

匹配度报告

68
综合匹配度

字节跳动前沿LLM评测岗,技术成长快,薪资优,但工作强度和WLB一般。

适合人群
适合追求技术成长、愿意投入高强度工作以换取前沿经验的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展85
工作生活40
使命价值70

薪资福利匹配

75中等

字节跳动薪资有竞争力,作为上市公司福利体系完善,但JD未明确薪资福利细节,评分中等偏上。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

85较高

岗位涉及LLM前沿技术,有学术产出机会,技术成长空间大,但JD未提及明确晋升通道。

技术前沿前沿/新兴技术
技术栈LLM、Agent、评测、Benchmark、数据合成
业务类型ambiguous

工作生活匹配

40较低

字节跳动通常要求现场办公,JD未提及弹性工作或WLB,工作强度可能较高。

工作模式未明确
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

LLM是高速增长赛道,但岗位偏向技术支撑,社会影响力一般,创新程度较高。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • Java开发工程师(联盟) - 【商业化】

    快手 · 北京市
    AI 估算 · 18k-28k
  • 后端AI Agent 工程师

    中国平安 · 深圳市
    AI 估算 · 20k-40k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • Java开发工程师(联盟) - 【商业化】

    快手 · 北京市
    AI 估算 · 18k-28k
  • 后端AI Agent 工程师

    中国平安 · 深圳市
    AI 估算 · 20k-40k