Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Agent效果评测工程师-Dev Infra
立即应聘

Agent效果评测工程师-Dev Infra

发布于 1 天前

普通员工/个人贡献者

杭州市
初级经验
全职员工
仅现场办公
本科
GO
LLM
大模型
MCP
效果评测
Multi-Agent
A2A

AI 估算 · 20k–35k

字节跳动大厂薪资竞争力强,Agent评测方向技术稀缺,1年经验初阶薪资范围合理。

职位详情

关于这个职位

该职位负责构建字节跳动软件工程场景下的效果评估体系,包括定义标准、设计评测集、分析问题并推动改进

你将与算法和策略团队协作,利用AI技术提升评测效率,优化产品迭代
适合对AI Agent和大模型评测有浓厚兴趣的技术人才

最低要求

本科及以上学历,计算机科学、人工智能、数学等相关专业

具备优秀的编码能力,扎实的数据结构和算法功底,至少熟练掌握C/C++/Go/Python一种开发语言
良好的沟通表达能力,对未知领域具备好奇心,有创新意识,良好的自驱力和解决复杂问题能力
对大模型和Agent有较深入的理解,熟悉常见的LLM实施模式、评估框架等,了解Agent架构(Multi-Agent、Context Engineering、ReAct等)和协议(MCP、A2A、Function Call)

工作职责

构建字节跳动软件工程开发真实场景下的效果评估体系,负责效果评估标准定义,构建高仿真评测集,设计科学客观的评估指标体系,结合业务场景开展效果评测工作

结合业务场景价值,洞察效果改进点,对效果问题进行分析归因,协同策略PM和算法,推进效果提升,提升产品业务价值
构建自动评测能力和洞察分析能力,引进和探索使用AI新技术,提升评测和洞察分析效率,整体促进产品的迭代效率
关注行业动态和技术最新趋势和方法,及时引入新的技术和理念,探索并应用于真实业务场景

优先资格

具备1年以上评测经验者优先

具备Agent开发或复杂场景评测经验者优先
有AI技术论文发表、大模型评测或训练经验优先

AI 洞察

优缺点分析

优点

  • 身处大模型和Agent前沿阵地,技术积累价值高
  • 字节跳动平台资源丰富,能接触大规模真实场景
  • 岗位稀缺性强,未来AI评测需求持续增长
  • 跨团队协作机会多,能提升综合技术视野
  • 评测标准制定需兼顾业务价值和技术深度,对综合能力要求高
  • 大模型领域变化快,需要持续学习跟踪最新技术
  • 适合对AI评测和Agent技术有热情、具备较强编程和问题分析能力、乐于在快节奏环境中成长的工程师

缺点 / 挑战

  • 字节跳动工作节奏较快,可能需要应对较强的时间压力

角色解读

  • 深耕AI评测领域,成为评测专家或质量架构师
  • 转向算法或策略岗位,基于评测洞察直接参与模型优化
  • 发展为技术管理岗,带领评测团队或质量团队
  • 设计并执行大模型和Agent在软件工程场景下的效果评测,制定标准与指标
  • 分析评测结果,定位效果问题,与算法和策略团队协作推动优化
  • 构建自动化评测平台,引入AI技术提升评测效率
  • 跟踪行业前沿,探索评测新技术并落地
  • 扎实的编程能力(C/C++/Go/Python)和数据结构算法基础
  • 对大模型和Agent技术有深入理解,熟悉LLM评估框架(如RAGAS、LangSmith)
  • 良好的沟通协作能力,能够跨团队推动问题解决
  • 创新思维和自驱力,善于将新技术应用于实际评测

申请策略

  • 关注字节跳动技术博客或开源项目,了解其在Agent和AI Infra上的布局
  • 面试中可准备一个你主导或参与的评测案例,展示分析思路和结果
  • 突出大模型或Agent相关的项目经验,尤其是评测或训练经历
  • 强调编程能力和数据结构算法基础,用具体代码或项目佐证
  • 展示对LLM评估框架(如RAGAS、LangSmith)或Agent协议(MCP、A2A)的了解
  • 提及论文发表或开源贡献,体现技术深度
  • 深入学习Agent架构(Multi-Agent、ReAct)和评估方法论
  • 熟悉主流LLM评估工具和数据集,动手实践搭建评测Pipeline

面试指南

  • 对于评测设计类问题:先明确场景和目标,再拆解评估维度(如准确性、效率、鲁棒性),然后选择或设计指标,最后说明数据采集和计算方式
  • 对于技术理解类问题:清晰解释概念,结合实际案例说明应用,并指出优缺点
  • 请设计一个Agent在代码生成场景下的评测方案
  • 如何评估一个Multi-Agent系统的整体效果?有哪些指标?
  • 你如何判断一个LLM输出是好的?有哪些定性和定量方法?
  • 请解释一下ReAct模式的工作原理,以及你如何评测其效果
  • 你在之前的项目中是如何处理评测数据集的构建和标注的?
  • 复习大模型评估的经典论文(如RAGAS、MMLU、HumanEval等)

匹配度报告

71
综合匹配度

字节大厂、前沿AI评测、技术成长快,但工作强度大、WLB一般。

适合人群
该职位最适合发展性动机强烈的求职者,即希望在大模型和Agent前沿领域快速成长、积累核心技术经验的人。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值70

薪资福利匹配

85较高

字节跳动薪资在行业内具有较强竞争力,福利完善(如五险一金、补充医疗、免费三餐等),但JD未明确薪资和具体福利,故评分略高但留有余地。

薪资信号未披露(AI估算:20K-35K/月)

成长发展匹配

90较高

该职位聚焦大模型和Agent前沿技术,涉及最新评估方法和自动化工具,成长空间大。公司内部技术氛围浓厚,有较多学习和晋升机会。

技术前沿前沿/新兴技术
技术栈大模型、Agent、LLM、Multi-Agent、MCP、A2A、RAGAS、LangSmith
业务类型ambiguous

工作生活匹配

40较低

字节跳动以高强度工作文化著称,虽JD未提及WLB,但业内普遍认知加班较多,且工作地点为杭州,生活成本较高。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI评测岗位有助于推动技术进步,但产品价值偏内部效率提升,社会影响力中性。行业处于高速增长期,但岗位本身并非直接面向用户或社会痛点。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k