Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型/Agent评测工程师-飞书Aily
立即应聘

大模型/Agent评测工程师-飞书Aily

发布于 2 天前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
分布式系统
自动化测试
LLM
AI测试
大模型
评测体系

AI 估算 · 30k–50k

字节跳动大模型岗位薪资较高,上海研发岗月薪30-50K,15薪,技术难度大、前沿赛道,薪资有竞争力。

职位详情

关于这个职位

该职位主要负责设计大模型与Agent的评测体系,开发自动化评测框架和平台,支撑模型持续迭代

工作内容包括构建场景化评测用例、分析评测结果并输出改进建议,需要同时具备AI技术理解和工程实现能力

最低要求

计算机科学、人工智能、软件工程等相关专业,本科及以上学历

对主流大模型的原理、能力边界及典型应用场景有较深入理解,熟悉大模型与Agent的常见评测方法
对主流LLM/Agent评测体系有较好理解,如GAIA、AgentBench等,能够基于评测结果进行结构化分析
具备良好的工程基础,能够参与或主导评测框架、工具或平台的设计与实现
具备良好的业务理解能力、沟通与协作能力,逻辑思维清晰,学习能力强,能够推动评测体系在业务中的落地

工作职责

设计与研发通用Agent、Code Agent的评测体系与评测方法,支撑模型与智能体的持续迭代与研发

构建面向不同业务域的场景化评测体系,将真实业务流程抽象为可复现、可扩展的评测用例
负责整体评测体系与评测框架的设计与演进,支持大规模、高效率的分布式评测执行
研发大模型与Agent的评测框架与评测平台,支持评测流程标准化、评测结果分析与可视化展示
设计并维护评测指标体系,覆盖模型与Agent的能力、稳定性、一致性与安全性等关键维度
负责评测数据、评测样本与Benchmark的建设与治理,保障评测结果的客观性与可复现性
基于评测结果进行分析与诊断,定位模型或Agent在推理、规划、工具调用、代码执行等环节的问题,并输出改进建议

AI 洞察

优缺点分析

优点

  • 身处大模型前沿赛道,接触顶级AI技术和应用场景,成长迅速
  • 字节跳动平台资源丰富,薪资待遇优厚,技术氛围浓厚
  • 工作内容兼具技术深度与广度,既涉及AI研究又涉及工程实现,能力提升全面
  • 大模型领域技术迭代极快,需要持续学习,保持知识更新
  • 适合对大模型技术有热情、喜欢解决复杂评测问题、具备较强工程和沟通能力的AI从业者

缺点 / 挑战

  • 评测体系从零到一建设,工作挑战大,需要较强的独立思考和问题解决能力
  • 涉及跨团队协作,沟通成本较高,需推动不同团队达成共识

角色解读

  • 在AI评测领域深耕,成为大模型质量保障专家,负责整个评测体系设计
  • 向AI研发方向拓展,从评测分析转向模型调优与Agent开发,成为全栈AI工程师
  • 晋升技术管理岗,带领评测团队,推动公司级AI质量文化建设
  • 设计和构建大模型与Agent的自动化评测体系,包括评测方法、指标、流程等
  • 将真实业务场景抽象为可复现的评测用例,确保评测结果能反映模型在实际应用中的表现
  • 开发评测框架和平台,支持大规模分布式评测执行,并对结果进行可视化和分析
  • 基于评测结果定位模型问题,输出改进建议,推动模型迭代优化
  • 扎实的AI知识,深入理解主流大模型原理、能力边界及评测方法
  • 熟悉LLM/Agent评测体系(如GAIA、AgentBench)并能进行结构化分析
  • 良好的工程能力,能主导或参与评测框架设计与实现,掌握Python及分布式计算
  • 具备业务理解与沟通协作能力,逻辑清晰,能推动评测落地

申请策略

  • 在面试中展示你对评测体系的系统思考,可以准备一个评测方案设计案例
  • 关注字节跳动技术博客和开源项目,了解其技术偏好
  • 突出大模型或Agent相关项目经验,尤其是评测或质量保障方面的成果
  • 强调工程实现能力,如设计过自动化测试框架、分布式系统等,附上GitHub链接
  • 展示对主流评测体系(如GAIA、AgentBench)的理解,最好有实际使用的经验
  • 体现业务理解能力,如将真实场景抽象为测试用例的案例
  • 深入研究和实践现有LLM/Agent评测工具和方法
  • 提升分布式系统和数据处理能力,学习Spark、Ray等框架

面试指南

  • 系统化思考:先明确目标,再设计指标和流程,最后考虑工程实现
  • 结合具体案例:用STAR法则(情境、任务、行动、结果)展示你的实践经验
  • 评估与迭代:强调评测体系需要持续优化,根据反馈调整
  • 如何设计一个针对Code Agent的评测方案?请举例说明
  • 如何评估大模型的工具调用能力?有哪些指标?
  • 如果评测结果与预期不符,你会如何分析并定位问题?
  • 你使用过哪些LLM评测框架?比较它们的优缺点
  • 在分布式评测中如何保证结果的准确性和一致性?

职位点评

68
综合评分

字节大模型评测岗,前沿技术、薪资优厚,但工作强度大、WLB一般。

更适合这类人
适合追求技术成长和高薪、能接受高强度工作的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利80
成长发展90
工作生活40
使命价值60

薪资福利

80较高

字节跳动为已上市巨头,薪资水平处于行业高位,福利完善,但未在JD明确列出具体福利。

薪资信号偏高 (30K-50K/月)

成长发展

90较高

该职位处于大模型前沿领域,工作内容涉及评测体系设计与研发,技术成长空间极大。但JD未明确提及晋升通道或培训。

技术前沿前沿/新兴技术
技术栈大模型、Agent、LLM、评测体系、分布式系统
业务类型profit_center

工作生活

40较低

字节跳动工作强度较大,JD未提及WLB相关政策,上海办公室位于市区但需现场办公。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

60中等

大模型行业处于高速增长期,岗位社会影响力中性,JD未提及使命感相关内容。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 税务合规专家

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 测试开发工程师-客服中台-北京

    字节跳动 · 北京市
    AI 估算 · 15k-30k
  • 安全检测工程师-安全与风控

    字节跳动 · 杭州市
    AI 估算 · 20k-35k
  • 高级测试开发工程师-抖音

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 大模型训练存储系统专家-Seed

    字节跳动 · 杭州市
    AI 估算 · 50k-80k

相似职位推荐

  • 微信支付-大模型风控算法工程师

    腾讯 · 深圳市
    AI 估算 · 35k-60k
  • 魔方工作室-动作生成算法工程师-角色动画方向

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 运动健康算法工程师-实习-2027届

    小米 · 深圳市
    AI 估算 · 5k-8k
  • Principal Algorithm Engineer

    采埃孚 · 上海市
    AI 估算 · 50k-80k
  • Lead Engineer, Modeling & Simulation

    特灵 · 上海市
    AI 估算 · 25k-40k

字节跳动 的其他在招职位

  • 税务合规专家

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 测试开发工程师-客服中台-北京

    字节跳动 · 北京市
    AI 估算 · 15k-30k
  • 安全检测工程师-安全与风控

    字节跳动 · 杭州市
    AI 估算 · 20k-35k
  • 高级测试开发工程师-抖音

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 大模型训练存储系统专家-Seed

    字节跳动 · 杭州市
    AI 估算 · 50k-80k

相似职位推荐

  • 微信支付-大模型风控算法工程师

    腾讯 · 深圳市
    AI 估算 · 35k-60k
  • 魔方工作室-动作生成算法工程师-角色动画方向

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 运动健康算法工程师-实习-2027届

    小米 · 深圳市
    AI 估算 · 5k-8k
  • Principal Algorithm Engineer

    采埃孚 · 上海市
    AI 估算 · 50k-80k
  • Lead Engineer, Modeling & Simulation

    特灵 · 上海市
    AI 估算 · 25k-40k