Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型与Agent评测基础设施算法工程师-Commercial AI
立即应聘

大模型与Agent评测基础设施算法工程师-Commercial AI

发布于 大约 2 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
学历未注明
系统设计
大模型
工程化
评测
Pipeline
任务编排
Sandbox
Judge

AI 估算 · 30k–50k

大模型算法岗,字节大厂薪资竞争力强,月薪30k-50k,15薪,匹配高级经验与前沿方向。

职位详情

关于这个职位

该职位负责建设大模型与Agent的评测基础设施,将评估设计转化为稳定可扩展的执行系统,并设计自动化评测流水线

工作涉及复杂后端系统开发、任务编排和沙箱环境构建,需要扎实的工程能力与跨团队协作
适合有大模型或评测平台经验的技术专家,追求长期投入评估基础设施方向

最低要求

计算机相关专业,具备扎实软件系统与工程实现基础

熟练使用Python,有服务/平台开发、数据处理或Pipeline建设经验
有大模型、Agent、评测平台、仿真环境或复杂后端系统开发经验
重视代码质量、系统设计、稳定性、可维护性与线上可观测
能将研究方案工程化落地,擅长跨团队协作推进复杂项目
愿意长期建设评估基础设施,相关领域经验与开源成果优先

工作职责

参与建设面向大模型与Agent的评测基础设施,将评估设计转化为稳定、可扩展、可观测、可复用的执行系统

负责已定义评估方法的稳定运行及结果接入研发流程,重点建设可复用的评测流水线与任务编排能力,持续完善Judge、Sandbox、风险检测等关键执行组件,提升实验执行的稳定性、可观测性与结果追溯能力
参与将复杂任务流程和Agent交互过程抽象为可执行评估环境,设计并实现大模型/Agent自动评测流水线,工程化落地Judge system、Sandbox、风险检测等关键组件,支撑多模型、多策略、多环境配置下的大规模实验执行
日常工作中定位失败任务、排查模型调用链路、修复评分流程和提升实验可复现性,与研究员协作将评估想法拆分为任务定义、输入输出协议、执行逻辑和监控指标,在研究需求和系统稳定性间寻找平衡

优先资格

相关领域经验与开源成果优先

AI 洞察

优缺点分析

优点

  • 参与大模型前沿技术,积累Agent评估和自动化测试的稀缺经验
  • 团队注重工程质量和系统设计,利于个人技术成长
  • 评测基础设施需要平衡研究灵活性与系统稳定性,技术深度和广度要求高
  • 大模型领域迭代快,需持续跟进最新技术与方法
  • 适合有后端工程基础、对AI评测有浓厚兴趣、追求技术深度和系统建设成就感的技术人才

缺点 / 挑战

  • 字节跳动平台资源丰富,项目影响力大,技术挑战高
  • 跨团队协作频繁,沟通成本较高

角色解读

  • 在评测基础设施领域深耕,成为大模型质量保障与自动化评估的技术专家
  • 横向扩展至AI Infra或模型训练平台,参与更广泛的AI系统架构设计
  • 向技术管理方向发展,带领团队建设更完善的评测体系
  • 设计和实现大模型与Agent的评测流水线,将评估方案转化为稳定可执行的系统
  • 开发并维护Judge、Sandbox等关键组件,支持大规模实验的自动化执行与结果追溯
  • 与研究员协作,拆解评估需求为任务定义和监控指标,平衡研究创新与系统稳定性
  • 扎实的Python编程能力和系统设计能力,能构建高可用、可观测的后端服务
  • 熟悉大模型、Agent或评测平台开发,有复杂Pipeline或仿真环境经验
  • 重视代码质量与工程落地,能跨团队推动复杂项目

申请策略

  • 在简历中明确体现对评测基础设施长期建设的热情,并准备相关的技术方案思考
  • 了解字节跳动AI评估方向的产品(如豆包),思考其评测挑战
  • 突出Python后端开发经验,尤其是大型系统或平台建设的项目
  • 强调大模型、Agent或评测相关项目经历,包括开源贡献
  • 展示系统设计能力,如可扩展性、稳定性、可观测性方面的实践
  • 补充大模型API调用、Agent框架(如LangChain)的使用经验
  • 学习任务编排系统(如Airflow、Prefect)和容器化技术(Docker、K8s)

面试指南

  • 针对系统设计问题,可遵循需求分析、架构选择、关键组件(如Judge、Sandbox)、扩展性考量等步骤展开
  • 对于排查问题,强调日志系统、监控指标、链路追踪的具体方法
  • 对于平衡问题,可以提出解耦设计、配置化、灰度机制等策略
  • 如何设计一个可扩展的大模型评测流水线?
  • 如何保证评测结果的可复现性和可追溯性?
  • 面对评测任务失败,排查思路是什么?
  • 如何平衡研究需求与系统稳定性?
  • 你参与过哪些AI相关系统的工程化落地?

匹配度报告

70
综合匹配度

大厂大模型评测基础设施,技术前沿发展好,薪资有竞争力,但WLB一般。

适合人群
适合优先看重技术成长和前沿方向,对薪资有较高预期,且能接受一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活50
使命价值65

薪资福利匹配

75中等

字节跳动薪资水平在行业内具有竞争力,但职位描述未明确薪资与福利,需在面试中确认。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

90较高

该职位聚焦大模型与Agent评测前沿技术,是AI领域的核心方向,技术成长空间巨大。

技术前沿前沿/新兴技术
技术栈大模型、Agent、评测、Pipeline、Sandbox、Judge
业务类型cost_center

工作生活匹配

50较低

未提及远程或弹性办公,地点上海,互联网公司工作节奏可能较快,WLB不确定。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

65中等

大模型评测对AI安全与质量有重要意义,但职位本身偏基础设施,直接社会影响力一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 增长算法工程师-抖音直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 用户产品经理(同城Tab方向)-TikTok生活服务

    字节跳动 · 上海市
    AI 估算 · 15k-25k
  • 推荐算法专家-抖音推荐技术

    字节跳动 · 北京市
    AI 估算 · 35k-55k
  • 服务器装备测试/Diag 工程师

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 服务器硬件研发维护专家-Data

    字节跳动 · 深圳市
    AI 估算 · 30k-50k

相似职位推荐

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k
  • 【快Star】多模态理解与生成算法研究员

    快手 · 北京市
    AI 估算 · 35k-60k
  • 【快Star】视频大模型高性能与低精度算子工程师

    快手 · 上海市
    AI 估算 · 35k-60k

字节跳动 的其他在招职位

  • 增长算法工程师-抖音直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 用户产品经理(同城Tab方向)-TikTok生活服务

    字节跳动 · 上海市
    AI 估算 · 15k-25k
  • 推荐算法专家-抖音推荐技术

    字节跳动 · 北京市
    AI 估算 · 35k-55k
  • 服务器装备测试/Diag 工程师

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 服务器硬件研发维护专家-Data

    字节跳动 · 深圳市
    AI 估算 · 30k-50k

相似职位推荐

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k
  • 【快Star】多模态理解与生成算法研究员

    快手 · 北京市
    AI 估算 · 35k-60k
  • 【快Star】视频大模型高性能与低精度算子工程师

    快手 · 上海市
    AI 估算 · 35k-60k