Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型/Agent评测工程师-飞书Aily
立即应聘

大模型/Agent评测工程师-飞书Aily

发布于 大约 10 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
LLM
代码生成
大模型
评测框架
Agent评测
Gaia
Agentbench
分布式评测

AI 估算 · 20k–40k

字节跳动核心业务,大模型方向薪资领先,上海地区工程师月薪通常在20k-40k之间

职位详情

关于这个职位

该职位负责设计并研发大模型及 Agent 的评测体系与平台,支持模型迭代和业务落地

你将构建场景化评测用例、开发分布式评测框架、分析结果并定位模型问题,是保障 AI 产品质量与可靠性的关键角色
适合对大模型评测有深入理解且工程能力强的技术人才

最低要求

计算机科学、人工智能、软件工程等相关专业,本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解,熟悉大模型与Agent的常见评测方法
对主流LLM/Agent评测体系有较好理解,如GAIA、AgentBench等,能够基于评测结果进行结构化分析
具备良好的工程基础,能够参与或主导评测框架、工具或平台的设计与实现
具备良好的业务理解能力、沟通与协作能力,逻辑思维清晰,学习能力强,能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法,支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系,将真实业务流程抽象为可复现、可扩展的评测用例
负责整体评测体系与评测框架的设计与演进,支持大规模、高效率的分布式评测执行
研发大模型与Agent的评测框架与评测平台,支持评测流程标准化、评测结果分析与可视化展示
设计并维护评测指标体系,覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度
负责评测数据、评测样本与Benchmark的建设与治理,保障评测结果的客观性与可复现性
基于评测结果进行分析与诊断,定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题,并输出改进建议

AI 洞察

优缺点分析

优点

  • 字节跳动大平台,飞书Aily核心业务,资源丰富,对个人成长有帮助
  • 大模型和Agent是当前最前沿技术方向,积累的经验极具市场竞争力
  • 团队技术氛围浓厚,能接触到顶级AI基础设施和业界最佳实践
  • 薪资福利优厚,大厂标配,股票期权等激励
  • 工作强度较大,互联网大厂加班文化可能存在
  • 适合对AI评测有浓厚兴趣、技术功底扎实、学习能力强且能适应快节奏的求职者

缺点 / 挑战

  • 技术迭代极快,需要持续学习新模型和评测方法,知识更新压力大
  • 评测体系建设需要跨部门协作,沟通成本较高

角色解读

  • 在评测领域深耕成为评测架构师或AI质量专家
  • 横向扩展至模型训练、推理优化或Agent全栈开发
  • 向技术管理方向发展,带领评测团队或负责AI产品线质量
  • 设计并研发通用Agent和Code Agent的评测体系与评测方法,支撑模型与智能体迭代
  • 构建面向不同业务域的场景化评测用例,将真实业务流程抽象为可复现、可扩展的测试
  • 开发大规模分布式评测框架与平台,实现评测流程标准化、结果可视化
  • 分析评测数据,定位模型在推理、规划、工具调用等环节的问题并提出改进建议
  • 深入理解主流大模型原理、能力边界及应用场景,熟悉LLM/Agent常见评测方法
  • 掌握AgentBench、GAIA等主流评测体系,能进行结构化分析
  • 具备扎实的工程基础,能主导评测框架、工具或平台的设计与实现
  • 良好的业务理解、沟通协作和逻辑思维能力,能推动评测体系落地

申请策略

  • 提前研究飞书Aily的产品定位和AI功能,面试中展现业务理解
  • 准备一个完整的评测方案设计案例,展示系统思维
  • 突出大模型相关项目经验,尤其是评测体系、基准测试或Agent开发经历
  • 强调工程能力:开发过评测框架、分布式系统或工具平台
  • 展示对主流评测体系(如AgentBench、GAIA)的理解和实际运用
  • 量化成果,如评测效率提升、问题发现率等指标
  • 深入掌握一两个主流评测框架(如LangChain、HuggingFace eval)
  • 补充分布式系统知识(如Spark、Ray)以支撑大规模评测

面试指南

  • 采用STAR原则:情境(Situation)、任务(Task)、行动(Action)、结果(Result),结构化回答问题
  • 对评测设计问题,从评测目标、维度、指标、数据、工具、流程六个方面系统阐述
  • 对问题定位问题,先复现现象,再拆解可能原因(模型、数据、框架),最后逐层验证
  • 如何设计一个通用Agent评测体系?请举例说明
  • 你如何看待GAIA或AgentBench的优缺点?如何改进?
  • 当评测结果与预期不符时,你如何分析和定位问题?
  • 请描述你之前参与开发的一个评测工具/平台的架构设计
  • 大模型在代码生成场景中常见的错误类型有哪些?如何设计针对性评测?

匹配度报告

76
综合匹配度

字节跳动前沿大模型评测岗,技术成长快、薪资高,但工作强度较大。

适合人群
该职位最适合追求技术成长、高薪酬和良好平台的求职者,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活60
使命价值70

薪资福利匹配

85较高

薪资处于行业顶级水平,字节跳动福利完善,但JD未明确列出具体福利项。

薪资信号偏高 (20K-40K/月)

成长发展匹配

90较高

大模型与Agent评测是前沿技术方向,职位负责核心评测体系构建,成长空间大,但JD未明确提及晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、Agent评测、LLM、AgentBench、GAIA、分布式评测、评测框架
业务类型profit_center

工作生活匹配

60中等

工作地点在上海核心城区,但JD未明确远程办公或弹性工时,互联网大厂通常强度较高。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

职位聚焦技术质量保障,社会价值一般,但行业前景光明,属于高速增长赛道。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 消息中间件产品开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 番茄系内容运营-音乐

    字节跳动 · 北京市
    AI 估算 · 15k-30k
  • 基础框架产品-红果短剧

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • XR系统应用开发工程师-移动OS

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • UX设计师-飞书文档

    字节跳动 · 深圳市
    AI 估算 · 15k-30k

字节跳动 的其他在招职位

  • 消息中间件产品开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 番茄系内容运营-音乐

    字节跳动 · 北京市
    AI 估算 · 15k-30k
  • 基础框架产品-红果短剧

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • XR系统应用开发工程师-移动OS

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • UX设计师-飞书文档

    字节跳动 · 深圳市
    AI 估算 · 15k-30k