Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
Agent效果评测工程师-Dev Infra
立即应聘

Agent效果评测工程师-Dev Infra

发布于 1 天前

普通员工/个人贡献者

深圳市
初级经验
全职员工
仅现场办公
本科
数据结构
算法
GO
LLM
效果评测
Multi-Agent

AI 估算 · 20k–35k

AI Agent领域技术含量高,字节跳动薪资竞争力强,本科1年经验对应中上水平。

职位详情

关于这个职位

该职位负责构建大模型与Agent在软件工程场景下的效果评测体系,包括评测标准、数据集和指标设计,并对效果问题进行归因分析,推动产品迭代

工作涉及自动评测工具开发与AI技术探索,适合对大模型和Agent有深入理解、具备编码能力的工程师

最低要求

本科及以上学历,计算机科学、人工智能、数学等相关专业

具备优秀的编码能力,扎实的数据结构和算法功底,至少熟练掌握C/C++/Go/Python一种开发语言
良好的沟通表达能力,对未知领域具备好奇心,有创新意识,良好的自驱力和解决复杂问题能力
对大模型和Agent有较深入的理解,熟悉常见的LLM实施模式、评估框架等,了解Agent架构(Multi-Agent、Context Engineering、ReAct等)和协议(MCP、A2A、Function Call)

工作职责

构建字节跳动软件工程开发真实场景下的效果评估体系,负责效果评估标准定义,构建高仿真评测集,设计科学客观的评估指标体系,结合业务场景开展效果评测工作

结合业务场景价值,洞察效果改进点,对效果问题进行分析归因,协同策略PM和算法,推进效果提升,提升产品业务价值
构建自动评测能力和洞察分析能力,引进和探索使用AI新技术,提升评测和洞察分析效率,整体促进产品的迭代效率
关注行业动态和技术最新趋势和方法,及时引入新的技术和理念,探索并应用于真实业务场景

优先资格

具备1年以上评测经验者优先

具备Agent开发或复杂场景评测经验者优先,有AI技术论文发表、大模型评测或训练经验优先

AI 洞察

优缺点分析

优点

  • 处于AI前沿领域(LLM+Agent),技术成长空间大,能快速积累行业稀缺经验
  • 字节跳动平台资源丰富,数据与场景真实,成果直接影响产品价值
  • 团队技术氛围浓厚,有机会接触并引入最新AI技术和方法
  • 评测标准制定主观性强,需要较强的抽象和逻辑思维能力
  • 适合对AI技术充满热情、具备扎实编码能力、喜欢解决复杂问题并追求技术成长的工程师

缺点 / 挑战

  • 技术更新迭代快,需要持续学习跟进,工作压力较大
  • 涉及多团队协作,沟通成本较高,需要推动力

角色解读

  • 在评测领域深耕成为专家,主导公司级评测体系建设
  • 横向扩展至AI工程化方向,参与大模型训练与Agent落地
  • 向技术管理方向发展,带领评测团队或转型为AI产品经理
  • 构建并优化大模型与Agent在软件工程场景下的效果评估体系,包括定义评测标准、构建高仿真数据集及设计科学指标
  • 对评测结果进行深入分析,定位效果问题并协同策略与算法团队推动改进
  • 开发自动化评测与洞察分析工具,引入AI新技术提升评测效率,加速产品迭代
  • 扎实的编程能力(Python/C++/Go)及数据结构与算法基础,能独立开发评测工具
  • 深入理解大模型(LLM)与Agent原理,熟悉常用评估框架和Agent架构(如Multi-Agent、ReAct)
  • 具备效果评测方法论和数据分析能力,能设计客观指标并归因分析
  • 良好的沟通与团队协作能力,能与多方角色高效配合

申请策略

  • 在简历或作品集中展示自己对评测体系的理解,如设计过哪些指标、如何归因
  • 面试前了解字节跳动Dev Infra的业务方向,思考如何将自身经验与岗位结合
  • 突出AI/LLM/Agent相关项目经验,尤其是效果评测或工程落地经历
  • 展示编程能力:附上GitHub链接或典型项目,说明使用语言和算法
  • 强调论文发表、大模型评测或Agent开发经验(如有)
  • 体现数据分析和问题归因能力,例如量化指标改进的案例
  • 熟悉主流LLM评估框架(如lm-eval-harness、HELM)和Agent框架(如LangGraph、AutoGPT)
  • 补充系统工程能力:学习CI/CD、自动化测试工具链

面试指南

  • 采用STAR原则:情境、任务、行动、结果,结构化展现项目经验
  • 对于设计类问题,先明确目标(精确性/鲁棒性/效率),再分维度阐述指标与数据构建
  • 归因分析遵循假设驱动:提出可能原因→设计实验验证→数据结论→改进建议
  • 如何为一个Agent应用设计效果评测方案?请举例说明
  • 你如何分析并定位一个Agent模型的效果问题?描述你的方法
  • 谈谈你对LLM评估框架(如BLEU、ROUGE、GPT-based评估)的理解和适用场景
  • 请展示一个你写过的代码片段,解释其数据结构与算法思想
  • 如果评测结果显示Agent在某个场景下表现差,但原因不明,你会如何排查?

匹配度报告

69
综合匹配度

字节AI评测岗,前沿技术栈,薪资竞争力强,但工作强度大。

适合人群
最适合理科技术成长、愿意高投入换取快速职业发展的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值60

薪资福利匹配

85较高

字节跳动薪资在行业内具有竞争力,福利体系完善,但JD中未明确列出具体福利。

薪资信号偏高 (20K-35K/月)

成长发展匹配

90较高

岗位聚焦AI前沿技术(LLM、Agent),技术成长空间大,但JD未明确晋升通道。

技术前沿前沿/新兴技术
技术栈LLM、Agent、Python、C++、Go
业务类型ambiguous

工作生活匹配

40较低

字节跳动工作节奏较快,JD未提及弹性办公或WLB,现场办公模式对生活灵活性限制较大。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

60中等

AI行业高速增长,岗位通过评测推动产品价值,但社会影响力一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 【正職】非破壞檢測師-非破壞檢測(高雄)

    通标标准技术服务有限公司 · 高雄市, , Taiwan
    AI 估算 · 9k-14k
  • 制造质量工程(MQE)

    富士康 · 深圳市
    AI 估算 · 8k-15k
  • QE Lead

    捷普 · 深圳市
    AI 估算 · 18k-28k
  • 储能实验室材料技师-高分子材料

    特斯拉 · 上海市
    AI 估算 · 10k-15k
  • 资深测试工程师

    网易 · 广州市
    AI 估算 · 20k-35k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 【正職】非破壞檢測師-非破壞檢測(高雄)

    通标标准技术服务有限公司 · 高雄市, , Taiwan
    AI 估算 · 9k-14k
  • 制造质量工程(MQE)

    富士康 · 深圳市
    AI 估算 · 8k-15k
  • QE Lead

    捷普 · 深圳市
    AI 估算 · 18k-28k
  • 储能实验室材料技师-高分子材料

    特斯拉 · 上海市
    AI 估算 · 10k-15k
  • 资深测试工程师

    网易 · 广州市
    AI 估算 · 20k-35k