
字节跳动
大模型/Agent评测工程师-飞书Aily
大模型/Agent评测工程师-飞书Aily
发布于 大约 2 小时前普通员工/个人贡献者
杭州市
中级经验
全职员工
仅现场办公
本科
LLM
大模型评测
工具调用
Agent评测
Code Agent
Gaia
安全评测
Agentbench
评测平台
分布式评测
AI 估算 · 25k–40k
大模型领域热门,字节跳动薪资具有竞争力,杭州生活成本适中。
职位详情
关于这个职位
这是字节跳动飞书Aily团队的大模型/Agent评测工程师岗位,主要负责设计与研发通用Agent和Code Agent的评测体系,构建面向业务场景的评测方法,并研发评测框架与平台
你将深入理解大模型与Agent的能力边界,通过系统化评测驱动模型迭代,对AI技术的落地质量至关重要
最低要求
计算机科学、人工智能、软件工程等相关专业,本科及以上学历
对主流大模型的原理、能力边界及典型应用场景有较深入理解,熟悉大模型与Agent的常见评测方法
对主流LLM/Agent评测体系有较好理解,如GAIA、AgentBench等,能够基于评测结果进行结构化分析
具备良好的工程基础,能够参与或主导评测框架、工具或平台的设计与实现
具备良好的业务理解能力、沟通与协作能力,逻辑思维清晰,学习能力强,能够推动评测体系在业务中的落地
工作职责
设计与研发通用Agent、Code Agent的评测体系与评测方法,支撑模型与智能体的持续迭代与研发
构建面向不同业务域的场景化评测体系,将真实业务流程抽象为可复现、可扩展的评测用例
负责整体评测体系与评测框架的设计与演进,支持大规模、高效率的分布式评测执行
研发大模型与Agent的评测框架与评测平台,支持评测流程标准化、评测结果分析与可视化展示
设计并维护评测指标体系,覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度
负责评测数据、评测样本与Benchmark的建设与治理,保障评测结果的客观性与可复现性
基于评测结果进行分析与诊断,定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题,并输出改进建议
AI 洞察
优缺点分析
优点
- 身处大模型一线,直接参与前沿技术迭代,技能积累价值高
- 字节跳动平台大,资源丰富,项目影响力广,为履历加分
- 评测岗稀缺,竞争相对算法岗小,稳定性和成长性兼备
- 评测工作涉及大量工程开发与业务沟通,对综合能力要求高
- 互联网大厂工作节奏快,项目周期紧,可能需要承担一定强度加班
- 适合对AI大模型有浓厚兴趣、擅长工程化思维与系统设计、能在快节奏中保持学习的工程师
缺点 / 挑战
- 大模型技术迭代快,需要持续学习,知识更新压力大
角色解读
- 向大模型评测专家或AI质量保障负责人发展,成为算法-评测交叉领域权威
- 横向扩展至模型训练、推理优化等方向,转向算法研发岗
- 在字节跳动内部跨团队流动,进入飞书其他AI产品或字节系AI平台
- 设计和研发大模型与Agent的评测体系、方法和工具,确保模型迭代方向正确
- 将真实业务场景抽象为可复现的评测用例,构建场景化评测体系
- 开发和维护分布式评测平台,支持大规模高效评测执行,并对结果进行可视化分析
- 基于评测结果诊断模型在推理、规划、工具调用等环节的问题,输出改进建议
- 深入理解主流大模型的原理、能力边界和应用场景,熟悉LLM/Agent评测方法
- 掌握主流评测体系如GAIA、AgentBench,能基于结果进行结构化分析
- 具备扎实的工程能力,能设计实现评测框架、工具或平台
- 优秀的业务理解和沟通协作能力,推动评测体系落地
申请策略
- 投递时附上你对大模型评测体系的个人理解短文,展示专业热情
- 关注字节飞书Aily团队的技术博客和开源项目,面试时展现对业务方向的了解
- 突出你对大模型原理和评测方法的深度理解,附上相关项目或研究经历
- 展示你设计或参与过的评测框架、平台或工具,量化效果和规模
- 强调你在分布式系统、大数据处理、可视化等方面的工程能力
- 如果有开源贡献、技术博客或竞赛经历,加分项务必列出
- 动手实践主流LLM评测框架如lm-evaluation-harness、AgentBench等
- 系统学习大模型基本原理(Transformer、RLHF、Prompt Engineering等)
面试指南
- 先定义问题边界和评测目标,再拆解维度(能力、稳定性、安全性等),最后给出具体指标和方法
- 使用STAR法则:情境(Situation)、任务(Task)、行动(Action)、结果(Result)来阐述项目经验
- 对于开放性问题,先给出总体框架,再举例说明,展示系统性思维
- 请设计一个大模型推理能力的评测方案
- 如何保证评测结果的可复现性和客观性?
- 你对GAIA和AgentBench评测体系的理解是什么?它们的优缺点是什么?
- 描述一个你遇到过的评测难点,以及你是如何解决的
- 在大模型评测中,如何平衡覆盖率和效率?
匹配度报告
72
综合匹配度
字节跳动大模型评测岗,前沿技术栈,高薪资,工作强度大。
适合人群
适合追求前沿技术成长、愿意在高强度环境中快速提升自己的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值75
薪资福利匹配
85较高
字节跳动作为头部互联网公司,薪资待遇处于行业领先水平,但未在JD中明确具体薪资范围。
薪资信号未披露(AI估算:25K-40K/月)
成长发展匹配
90较高
该岗位聚焦大模型与Agent评测这一前沿领域,技术成长空间巨大,但JD未明确提及晋升或培训机制。
技术前沿前沿/新兴技术
技术栈大模型、Agent、LLM、评测体系、分布式
业务类型ambiguous
工作生活匹配
40较低
字节跳动工作节奏较快,项目周期紧张,可能涉及一定程度的加班,且未提及远程或弹性办公。
工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)
使命价值匹配
75中等
大模型领域处于高速增长期,评测工作对AI质量保障有重要意义,但社会影响力较为中性。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
字节跳动 的其他在招职位
相似职位推荐
Watch Jobs