Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Agent数据&评测工程师/专家-Dev Infra
立即应聘

Agent数据&评测工程师/专家-Dev Infra

发布于 1 天前

普通员工/个人贡献者

上海市
初级经验
全职员工
仅现场办公
本科
算法
GO
LLM
数据合成
自动化评测
数据评测
数据构建

AI 估算 · 20k–35k

大厂核心研发岗位,LLM/Agent方向技术稀缺,薪资竞争力强,结合上海生活成本和行业水平

职位详情

关于这个职位

该职位主要负责LLM在编程、个人助理等场景的Agent评测与数据建设,包括制定评测标准、开发自动化评测工具、构建大规模高质量数据集,并持续探索创新的评测方法

你将深入参与大模型能力度量与调优,推动Agent和模型能力的边界突破,同时有机会接触行业前沿技术并发表论文
适合对大模型和Agent有浓厚兴趣、具备扎实编码能力和自驱力的技术人才

最低要求

本科及以上学历,计算机科学、人工智能、数学等相关专业,具有1年以上大模型相关工作经验

具备优秀的编码能力,扎实的数据结构和算法功底,至少熟练掌握C/C++/Go/Python一种开发语言

工作职责

深入探索LLM在编程、个人助理等各种场景中的应用,支持TRAE、扣子等业务的端到端评测工作,Agent评测、调优和自迭代等相关工作

制定评测标准,开发评测Agent,建设自动化评测基建,同时通过数据分析与算法改进,持续探索创新的评测方法
构建大规模高质量的数据(数据建设、数据抓取与解析、数据合成等),提出更好的Benchmark,度量Agent和模型能力
关注行业动态与技术趋势,及时引入新的技术和理念,跟随团队校企横向项目、学术论坛会议、发布论文等,协助团队构建学术界影响力

优先资格

有Agent开发或复杂场景评测经验者优先

聪明且对探索未知领域有强烈兴趣,具备极强的问题解决能力与自驱力者优先

AI 洞察

优缺点分析

优点

  • 身处大模型技术前沿,接触最新LLM应用场景,技术成长空间大
  • 字节跳动平台资源丰富,数据和算力支持充分,能快速积累行业影响力
  • 职位涉及评测、数据、算法全链路,打造综合能力
  • 工作节奏较快,需应对多业务线评测需求,时间管理要求高
  • 大模型领域迭代迅速,需持续学习保持技术敏感度
  • 评测工作有时枯燥,需要极强的自驱力和细致耐心
  • 该职位适合对大模型和Agent有浓厚兴趣、善于钻研、具备扎实编程基础和自驱力的技术人才,尤其适合希望在AI评测和数据建设方向深耕的候选人

缺点 / 挑战

暂无明显挑战项

角色解读

  • 可向高级评测专家或大模型算法专家方向发展,深入Agent能力评估与优化
  • 有机会转向Agent开发或模型训练方向,积累全栈式大模型经验
  • 也可向技术管理岗位发展,带领评测团队,或进入学术界发表论文、参与标准制定
  • 负责LLM在编程、个人助理等场景的端到端评测,包括制定评测标准、开发自动化评测Agent,并通过数据分析持续优化评测方法
  • 构建大规模高质量数据集,包括数据抓取、解析和合成,提出更好的Benchmark来度量Agent和模型能力
  • 关注行业动态,引入新技术,参与校企合作项目和学术会议,助力团队构建学术界影响力
  • 具备扎实的编码能力,熟练掌握C/C++/Go/Python中的至少一种,数据结构和算法基础牢固
  • 对大模型和Agent有深入理解,有相关评测或开发经验者优先,需要能够独立设计评测方案
  • 具备数据构建和处理能力,熟悉数据抓取、解析、合成等流程,能够提出创新性Benchmark

申请策略

  • 在简历中体现对字节跳动相关产品(如TRAE、扣子)的了解,展示业务兴趣
  • 突出大模型相关项目经验,特别是Agent评测、数据构建或模型调优的实践
  • 强调编码能力,列出熟练的语言和算法竞赛、开源贡献等成果
  • 如有论文发表或学术会议经历,务必展示,体现研究能力
  • 提前了解LLM评测常用方法(如HumanEval、MT-Bench等)和Agent框架(如LangChain、AutoGPT)
  • 补充数据抓取、清洗、合成方面的技能,熟悉常见数据工具

面试指南

  • 对于评测方案类问题,从目标定义、指标选择、数据集构建、自动化流程、结果分析等维度展开,结合具体案例
  • 对于项目经验类问题,采用STAR原则(情境-任务-行动-结果),突出个人贡献和效果量化
  • 对于开放性问题,强调逻辑性和创新性,展示对技术细节的理解和思考
  • 如何设计一个Agent在编程任务上的评测方案?请举例说明
  • 简述你参与过的大模型数据构建或评测项目,遇到的最大挑战是什么?
  • 如何自动化地评估一个Agent的性能,并保证评测的公平性和可重复性?
  • 你如何理解端到端评测与单独模型能力评测的区别?
  • 请描述一个你主动探索并解决的技术难题,体现自驱力

匹配度报告

71
综合匹配度

大厂核心大模型评测岗位,技术前沿,薪资优厚,但工作强度和节奏较快

适合人群
最适合追求技术成长和前沿探索的求职者,若对WLB有较高要求需谨慎考虑。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活50
使命价值65

薪资福利匹配

80较高

字节跳动作为头部互联网公司,薪资待遇具有竞争力(参考salary_estimation),福利完善,但JD未明确提及具体福利项,补偿性动机满足度较高。

薪资信号未披露(AI估算:20K-35K/月)

成长发展匹配

90较高

该职位处于LLM/Agent前沿技术领域,直接参与核心评测和数据建设,技术成长空间大,JD中明确提及'关注行业动态、引入新理念、发表论文',发展性动机得到很好满足。

技术前沿前沿/新兴技术
技术栈LLM、Agent、数据合成、自动化评测、Benchmark
成长机会关注行业动态、引入新的技术和理念、发表论文
业务类型ambiguous

工作生活匹配

50较低

JD未提及远程办公或弹性工时,字节跳动通常要求现场办公,且互联网公司工作节奏较快,WLB信号不足,生活化动机满足度中等偏低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

65中等

大模型技术处于高速发展赛道,对社会智能化有推动作用,但该职位偏技术实现,社会影响力较间接,意义感动机满足度中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k