Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型与Agent评测基础设施算法工程师-Commercial AI
立即应聘

大模型与Agent评测基础设施算法工程师-Commercial AI

发布于 大约 14 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
系统设计
数据处理
后端开发
可观测性
稳定性
大模型
Pipeline
评测平台

AI 估算 · 35k–60k

字节跳动大模型方向算法岗薪资较高,北京一线互联网大厂,月薪35k-60k,平均约47.5k,年薪14-16薪。

职位详情

关于这个职位

作为大模型与Agent评测基础设施算法工程师,你将负责构建稳定、可扩展的评测系统,包括Judge、Sandbox等关键组件,支持大规模实验执行,并与研究员协作将评估想法落地为工程化方案

该职位需要扎实的工程基础和Python技能,适合对AI评测基础设施有长期兴趣的开发者

最低要求

计算机相关专业,具备扎实软件系统与工程实现基础

熟练使用Python,有服务/平台开发、数据处理或Pipeline建设经验
有大模型、Agent、评测平台、仿真环境或复杂后端系统开发经验
重视代码质量、系统设计、稳定性、可维护性与线上可观测
能将研究方案工程化落地,擅长跨团队协作推进复杂项目

工作职责

参与建设面向大模型与Agent的评测基础设施,将评估设计转化为稳定、可扩展、可观测、可复用的执行系统

建设可复用的评测流水线与任务编排能力,持续完善Judge、Sandbox、风险检测等关键执行组件
提升实验执行的稳定性、可观测性与结果追溯能力,参与将复杂任务流程和Agent交互过程抽象为可执行评估环境
设计并实现大模型/Agent自动评测Pipeline,工程化落地Judge system、sandbox、风险检测等关键组件
支撑多模型、多策略、多环境配置下的大规模实验执行,定位失败任务、排查模型调用链路、修复评分流程和提升实验可复现性
与研究员协作将评估想法拆分为任务定义、输入输出协议、执行逻辑和监控指标,平衡研究需求和系统稳定性

优先资格

愿意长期建设评估基础设施,相关领域经验与开源成果优先

AI 洞察

优缺点分析

优点

  • 大模型与Agent是当前AI最热门方向,字节跳动在该领域投入巨大,团队技术氛围浓厚
  • 负责基础设施核心组件,能深度参与技术决策,积累系统设计与工程化经验
  • 与顶级研究员合作,接触前沿评估方法,技术成长快
  • 技术栈涉及面广,需要同时掌握后端开发、数据处理、系统设计等多领域知识
  • 评估基础设施的长期建设需要耐心和细致,可能面临复杂问题定位与排错
  • 适合热爱AI基础设施、善于工程化落地、乐于解决复杂系统问题的经验型工程师

缺点 / 挑战

  • 工作强度可能较高,需要快速迭代以支撑研究需求,对稳定性和效率有严格要求

角色解读

  • 在AI基础设施领域深耕,成为评测系统架构专家,主导下一代评测平台的设计与实现
  • 向技术管理方向发展,带领团队负责评测基础设施的长期规划与建设
  • 横向扩展至大模型训练、推理优化或AI平台开发,拓宽技术视野
  • 构建大模型与Agent的评测基础设施,包括评测流水线、任务编排、Judge系统等核心组件
  • 将复杂的评估流程工程化,确保系统稳定、可扩展、可观测,并支持大规模实验执行
  • 与研究员紧密协作,将评估想法拆解为可执行的任务,并监控实验过程、定位问题、提升可复现性
  • 扎实的Python编程能力和系统设计基础,有后端服务或数据处理Pipeline开发经验
  • 熟悉大模型、Agent或评测平台相关技术,了解分布式系统、稳定性与可观测性实践
  • 能够将研究方案工程化落地,具备跨团队协作和复杂项目推进能力

申请策略

  • 关注字节跳动AI Lab的技术博客和开源项目,了解其技术栈和工作方式
  • 面试前准备一个端到端的评测系统设计案例,展示系统思维和工程化能力
  • 重点突出Python后端开发经验,尤其是大规模数据处理或Pipeline构建项目
  • 展示大模型、Agent或评测平台相关工作经验,如有开源贡献更佳
  • 强调系统设计能力、稳定性优化和可观测性实践,用具体案例说明
  • 深入理解大模型评测方法论,了解常见基准测试、自动评估框架(如MMLU、HumanEval等)
  • 学习分布式系统设计模式,掌握容器化、任务调度、监控告警等基础设施技能

面试指南

  • STAR法则:描述情境、任务、行动和结果,突出技术决策和工程化落地
  • 系统设计题:从需求分析、架构选型、组件设计、容错与监控等维度展开,注重权衡和扩展性
  • 开放性问题:结合自身经验,提出结构化方案,并讨论可能的优化方向
  • 设计一个可扩展的大模型评测流水线,如何保证稳定性和可观测性?
  • 如何处理Agent交互过程的评测,举例说明任务编排的实现思路
  • 如何定位并修复大规模实验中的失败任务,确保可复现性?
  • 你如何看待代码质量与快速迭代之间的平衡?
  • 描述一个你参与过的复杂系统开发项目,你在其中扮演的角色和遇到的挑战

匹配度报告

69
综合匹配度

大厂核心岗位、前沿技术栈、薪资优厚,但工作强度大、WLB一般。

适合人群
适合追求技术成长和高薪回报、能够适应快节奏工作的开发者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展85
工作生活40
使命价值70

薪资福利匹配

80较高

字节跳动薪资在互联网行业处于高位,且为大模型核心岗位,福利齐全,补偿性动机满足程度较高。

薪资信号未披露(AI估算:35K-60K/月)

成长发展匹配

85较高

该职位涉及大模型前沿技术,能深度参与基础设施构建,技术成长空间大,但未明确提及晋升路径。

技术前沿前沿/新兴技术
技术栈大模型、Agent、评测平台、Python、分布式系统
业务类型profit_center

工作生活匹配

40较低

字节跳动工作节奏较快,北京现场办公,未提及弹性或远程,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型评测基础设施建设对AI行业发展有积极意义,但社会影响力间接,使命感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 品牌广告产品经理(品牌竞价方向)-中国商业产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 商品策略运营(作者方向)-抖音电商

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • 高级抖音用户产品经理-汽水音乐

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • iOS资深研发工程师-TikTok搜索

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • 平台治理前端开发工程师-生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 快手后端实习生(后端/AI方向)

    快手 · 北京市
    AI 估算 · 4k-6k
  • 服务端测试开发工程师-【商业化】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 服务端测试开发工程师-【线索营销】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 后端开发-数智

    中国平安 · 深圳市
    AI 估算 · 25k-40k

字节跳动 的其他在招职位

  • 品牌广告产品经理(品牌竞价方向)-中国商业产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 商品策略运营(作者方向)-抖音电商

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • 高级抖音用户产品经理-汽水音乐

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • iOS资深研发工程师-TikTok搜索

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • 平台治理前端开发工程师-生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 快手后端实习生(后端/AI方向)

    快手 · 北京市
    AI 估算 · 4k-6k
  • 服务端测试开发工程师-【商业化】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 服务端测试开发工程师-【线索营销】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 后端开发-数智

    中国平安 · 深圳市
    AI 估算 · 25k-40k