Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Agent效果评测工程师-Dev Infra
立即应聘

Agent效果评测工程师-Dev Infra

发布于 1 天前

普通员工/个人贡献者

北京市
初级经验
全职员工
仅现场办公
本科
数据结构
算法
GO
LLM
大模型
MCP
效果评测
A2A

AI 估算 · 25k–45k

字节跳动中级技术岗位,结合北京互联网薪资水平及大模型方向热度,月薪25-45K,年终奖2-4个月。

职位详情

关于这个职位

该职位负责构建字节跳动软件工程场景下的Agent效果评估体系,包括制定评测标准、设计评测集、开展效果评测,并对效果问题进行归因分析,协同算法团队推动产品迭代

你将接触到前沿的大模型与Agent技术,适合对AI评测有热情、具备编码能力的候选人

最低要求

本科及以上学历,计算机科学、人工智能、数学等相关专业,具备1年以上评测经验者优先

具备优秀的编码能力,扎实的数据结构和算法功底,至少熟练掌握C/C++/Go/Python一种开发语言
良好的沟通表达能力,对未知领域具备好奇心,有创新意识,良好的自驱力和解决复杂问题能力
对大模型和Agent有较深入的理解,熟悉常见的LLM实施模式、评估框架等,了解Agent架构(Multi-Agent、Context Engineering、ReAct等)和协议(MCP、A2A、Function Call)
具备Agent开发或复杂场景评测经验者优先,有AI技术论文发表、大模型评测或训练经验优先

工作职责

构建字节跳动软件工程开发真实场景下的效果评估体系,负责效果评估标准定义,构建高仿真评测集,设计科学客观的评估指标体系,结合业务场景开展效果评测工作

结合业务场景价值,洞察效果改进点,对效果问题进行分析归因,协同策略PM和算法,推进效果提升,提升产品业务价值
构建自动评测能力和洞察分析能力,引进和探索使用AI新技术,提升评测和洞察分析效率,整体促进产品的迭代效率
关注行业动态和技术最新趋势和方法,及时引入新的技术和理念,探索并应用于真实业务场景

AI 洞察

优缺点分析

优点

  • 身处大模型和Agent的技术前沿,能快速积累AI评估与优化的宝贵经验
  • 字节跳动平台大、业务场景丰富,有机会接触海量真实数据和高并发系统
  • 团队氛围技术驱动,鼓励创新,有持续学习和成长的空间
  • 薪资福利在行业内具有较强竞争力,适合追求高回报的求职者
  • 评测工作需要较强的逻辑分析和归因能力,对细节把握要求高
  • 适合对AI评测充满热情、具备扎实编程功底和探索精神的技术型人才,尤其适合希望在LLM和Agent方向深耕的候选人

缺点 / 挑战

  • 大模型和Agent技术迭代快,需要持续跟踪最新研究,学习压力较大
  • 与算法、产品等多方协作,沟通成本较高,需具备良好的跨团队协调能力

角色解读

  • 成为AI评测领域的专家,主导复杂系统的评估体系设计,向技术专家方向发展
  • 转为AI算法工程师或Agent开发工程师,深入参与模型优化与产品落地
  • 向技术管理方向发展,带领评测团队,推动整体质量与效率提升
  • 设计和构建软件工程场景下的Agent效果评估体系,包括评测标准、评测集和指标体系
  • 对Agent效果问题进行归因分析,协同策略PM和算法工程师推动效果优化
  • 搭建自动评测和洞察分析工具,引入AI新技术提升评测效率
  • 跟踪大模型和Agent领域的最新动态,探索新技术在业务中的应用
  • 扎实的编程能力,熟练掌握Python/Go/C++至少一种,具备良好的数据结构和算法基础
  • 深入理解大模型和Agent技术,熟悉LLM实施模式、评估框架及Agent架构(如Multi-Agent、ReAct)
  • 优秀的沟通与协作能力,能够与产品、算法等多角色高效配合
  • 具备评测经验或AI相关研究背景,有论文发表或大模型评测经验者更佳

申请策略

  • 在面试中主动展示你对评测体系的理解,可以准备一个完整的评测方案案例
  • 关注字节跳动的技术博客和开源项目,了解团队的技术方向和文化
  • 突出你的编程能力,尤其是Python、C++、Go等语言的实际项目经验
  • 强调任何与评测、大模型、Agent相关的经历,包括实习、科研或竞赛
  • 展示你对数据结构与算法的掌握,最好有LeetCode或ACM的成果
  • 如有论文或公开评测成果,务必详细列出,体现你的研究能力
  • 深入学习LLM评估框架(如lm-eval-harness、MT-Bench)和Agent架构(ReAct、Multi-Agent)
  • 补充AI系统性能评测与调优知识,了解常见的自动化测试工具

面试指南

  • 对于评测设计类问题,可以从「评测目标-指标体系-数据集构建-自动化流程-结果分析」五步展开
  • 对于归因分析类问题,可采用「假设驱动+分步验证」的方法,结合日志、中间输出和对比实验
  • 对于技术理解类问题,先概述核心概念,再结合实际项目经验或调研成果,最后提出你的洞察
  • 请设计一个针对智能客服Agent的效果评测方案,包括评测指标、数据集和流程
  • 如何评估大模型在复杂场景下的推理能力?请举例说明
  • 你如何对Agent的错误行为进行归因?请描述你的分析方法
  • 请谈谈你对Multi-Agent系统中评测挑战的看法
  • 你有用过哪些大模型评估框架?它们各自的优缺点是什么?

匹配度报告

75
综合匹配度

字节跳动AI评测岗,前沿技术栈、高成长性,薪资竞争力强但WLB一般。

适合人群
最适合同样重视技术成长和职业发展的求职者,愿意为前沿技术付出一定的时间精力。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活60
使命价值70

薪资福利匹配

80较高

字节跳动薪资在互联网行业具有竞争力,且公司福利完善,但JD未明确具体薪资,仅能基于公司规模和职位层级推断。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

90较高

该职位涉及前沿的大模型和Agent技术,团队鼓励技术探索和创新,成长空间大,公司有丰富的内部培训和晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、Agent、LLM、Multi-Agent、ReAct、MCP、A2A
业务类型ambiguous

工作生活匹配

60中等

北京办公,未提及远程或弹性工作制,互联网公司通常工作强度较高,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI评测工作对提升产品可靠性和用户体验有直接贡献,但社会影响力的直接体现不明显,行业处于高增长阶段。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k