字节跳动的大模型与Agent评测基础设施算法工程师-Commercial AI薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

大模型与Agent评测基础设施算法工程师-Commercial AI的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大模型与Agent评测基础设施算法工程师-Commercial AI有什么任职要求？

该职位要求学历未注明学历及中级经验工作经验。

字节跳动

大模型与Agent评测基础设施算法工程师-Commercial AI

立即应聘

大模型与Agent评测基础设施算法工程师-Commercial AI

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

Pipeline

可观测性

后端开发

大模型

数据处理

稳定性

系统设计

评测平台

AI 估算 · 35k–60k

字节跳动大模型方向算法岗薪资较高，北京一线互联网大厂，月薪35k-60k，平均约47.5k，年薪14-16薪。

职位详情

关于这个职位

作为大模型与Agent评测基础设施算法工程师，你将负责构建稳定、可扩展的评测系统，包括Judge、Sandbox等关键组件，支持大规模实验执行，并与研究员协作将评估想法落地为工程化方案

该职位需要扎实的工程基础和Python技能，适合对AI评测基础设施有长期兴趣的开发者

最低要求

计算机相关专业，具备扎实软件系统与工程实现基础

熟练使用Python，有服务/平台开发、数据处理或Pipeline建设经验

有大模型、Agent、评测平台、仿真环境或复杂后端系统开发经验

重视代码质量、系统设计、稳定性、可维护性与线上可观测

能将研究方案工程化落地，擅长跨团队协作推进复杂项目

工作职责

参与建设面向大模型与Agent的评测基础设施，将评估设计转化为稳定、可扩展、可观测、可复用的执行系统

建设可复用的评测流水线与任务编排能力，持续完善Judge、Sandbox、风险检测等关键执行组件

提升实验执行的稳定性、可观测性与结果追溯能力，参与将复杂任务流程和Agent交互过程抽象为可执行评估环境

设计并实现大模型/Agent自动评测Pipeline，工程化落地Judge system、sandbox、风险检测等关键组件

支撑多模型、多策略、多环境配置下的大规模实验执行，定位失败任务、排查模型调用链路、修复评分流程和提升实验可复现性

与研究员协作将评估想法拆分为任务定义、输入输出协议、执行逻辑和监控指标，平衡研究需求和系统稳定性

优先资格

愿意长期建设评估基础设施，相关领域经验与开源成果优先

AI 洞察

优缺点分析

优点

大模型与Agent是当前AI最热门方向，字节跳动在该领域投入巨大，团队技术氛围浓厚
负责基础设施核心组件，能深度参与技术决策，积累系统设计与工程化经验
与顶级研究员合作，接触前沿评估方法，技术成长快
技术栈涉及面广，需要同时掌握后端开发、数据处理、系统设计等多领域知识
评估基础设施的长期建设需要耐心和细致，可能面临复杂问题定位与排错
适合热爱AI基础设施、善于工程化落地、乐于解决复杂系统问题的经验型工程师

缺点 / 挑战

工作强度可能较高，需要快速迭代以支撑研究需求，对稳定性和效率有严格要求

角色解读

在AI基础设施领域深耕，成为评测系统架构专家，主导下一代评测平台的设计与实现
向技术管理方向发展，带领团队负责评测基础设施的长期规划与建设
横向扩展至大模型训练、推理优化或AI平台开发，拓宽技术视野
构建大模型与Agent的评测基础设施，包括评测流水线、任务编排、Judge系统等核心组件
将复杂的评估流程工程化，确保系统稳定、可扩展、可观测，并支持大规模实验执行
与研究员紧密协作，将评估想法拆解为可执行的任务，并监控实验过程、定位问题、提升可复现性
扎实的Python编程能力和系统设计基础，有后端服务或数据处理Pipeline开发经验
熟悉大模型、Agent或评测平台相关技术，了解分布式系统、稳定性与可观测性实践
能够将研究方案工程化落地，具备跨团队协作和复杂项目推进能力

申请策略

关注字节跳动AI Lab的技术博客和开源项目，了解其技术栈和工作方式
面试前准备一个端到端的评测系统设计案例，展示系统思维和工程化能力
重点突出Python后端开发经验，尤其是大规模数据处理或Pipeline构建项目
展示大模型、Agent或评测平台相关工作经验，如有开源贡献更佳
强调系统设计能力、稳定性优化和可观测性实践，用具体案例说明
深入理解大模型评测方法论，了解常见基准测试、自动评估框架（如MMLU、HumanEval等）
学习分布式系统设计模式，掌握容器化、任务调度、监控告警等基础设施技能

面试指南

STAR法则：描述情境、任务、行动和结果，突出技术决策和工程化落地
系统设计题：从需求分析、架构选型、组件设计、容错与监控等维度展开，注重权衡和扩展性
开放性问题：结合自身经验，提出结构化方案，并讨论可能的优化方向
设计一个可扩展的大模型评测流水线，如何保证稳定性和可观测性？
如何处理Agent交互过程的评测，举例说明任务编排的实现思路
如何定位并修复大规模实验中的失败任务，确保可复现性？
你如何看待代码质量与快速迭代之间的平衡？
描述一个你参与过的复杂系统开发项目，你在其中扮演的角色和遇到的挑战

职位点评

综合评分

大厂核心岗位、前沿技术栈、薪资优厚，但工作强度大、WLB一般。

更适合这类人

适合追求技术成长和高薪回报、能够适应快节奏工作的开发者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展85

工作生活40

使命价值70

薪资福利

80较高

字节跳动薪资在互联网行业处于高位，且为大模型核心岗位，福利齐全，补偿性动机满足程度较高。

薪资信号未披露（AI估算：35K-60K/月）

成长发展

85较高

该职位涉及大模型前沿技术，能深度参与基础设施构建，技术成长空间大，但未明确提及晋升路径。

技术前沿前沿/新兴技术

技术栈大模型、Agent、评测平台、Python、分布式系统

业务类型profit_center

工作生活

40较低

字节跳动工作节奏较快，北京现场办公，未提及弹性或远程，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型评测基础设施建设对AI行业发展有积极意义，但社会影响力间接，使命感中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型与Agent评测基础设施算法工程师-Commercial AI

立即应聘

大模型与Agent评测基础设施算法工程师-Commercial AI

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

Pipeline

可观测性

后端开发

大模型

数据处理

稳定性

系统设计

评测平台

AI 估算 · 35k–60k

字节跳动大模型方向算法岗薪资较高，北京一线互联网大厂，月薪35k-60k，平均约47.5k，年薪14-16薪。

职位详情

关于这个职位

该职位需要扎实的工程基础和Python技能，适合对AI评测基础设施有长期兴趣的开发者

最低要求

计算机相关专业，具备扎实软件系统与工程实现基础

熟练使用Python，有服务/平台开发、数据处理或Pipeline建设经验

有大模型、Agent、评测平台、仿真环境或复杂后端系统开发经验

重视代码质量、系统设计、稳定性、可维护性与线上可观测

能将研究方案工程化落地，擅长跨团队协作推进复杂项目

工作职责

参与建设面向大模型与Agent的评测基础设施，将评估设计转化为稳定、可扩展、可观测、可复用的执行系统

建设可复用的评测流水线与任务编排能力，持续完善Judge、Sandbox、风险检测等关键执行组件

提升实验执行的稳定性、可观测性与结果追溯能力，参与将复杂任务流程和Agent交互过程抽象为可执行评估环境

设计并实现大模型/Agent自动评测Pipeline，工程化落地Judge system、sandbox、风险检测等关键组件

支撑多模型、多策略、多环境配置下的大规模实验执行，定位失败任务、排查模型调用链路、修复评分流程和提升实验可复现性

与研究员协作将评估想法拆分为任务定义、输入输出协议、执行逻辑和监控指标，平衡研究需求和系统稳定性

优先资格

愿意长期建设评估基础设施，相关领域经验与开源成果优先

AI 洞察

优缺点分析

优点

大模型与Agent是当前AI最热门方向，字节跳动在该领域投入巨大，团队技术氛围浓厚
负责基础设施核心组件，能深度参与技术决策，积累系统设计与工程化经验
与顶级研究员合作，接触前沿评估方法，技术成长快
技术栈涉及面广，需要同时掌握后端开发、数据处理、系统设计等多领域知识
评估基础设施的长期建设需要耐心和细致，可能面临复杂问题定位与排错
适合热爱AI基础设施、善于工程化落地、乐于解决复杂系统问题的经验型工程师

缺点 / 挑战

工作强度可能较高，需要快速迭代以支撑研究需求，对稳定性和效率有严格要求

角色解读

在AI基础设施领域深耕，成为评测系统架构专家，主导下一代评测平台的设计与实现
向技术管理方向发展，带领团队负责评测基础设施的长期规划与建设
横向扩展至大模型训练、推理优化或AI平台开发，拓宽技术视野
构建大模型与Agent的评测基础设施，包括评测流水线、任务编排、Judge系统等核心组件
将复杂的评估流程工程化，确保系统稳定、可扩展、可观测，并支持大规模实验执行
与研究员紧密协作，将评估想法拆解为可执行的任务，并监控实验过程、定位问题、提升可复现性
扎实的Python编程能力和系统设计基础，有后端服务或数据处理Pipeline开发经验
熟悉大模型、Agent或评测平台相关技术，了解分布式系统、稳定性与可观测性实践
能够将研究方案工程化落地，具备跨团队协作和复杂项目推进能力

申请策略

关注字节跳动AI Lab的技术博客和开源项目，了解其技术栈和工作方式
面试前准备一个端到端的评测系统设计案例，展示系统思维和工程化能力
重点突出Python后端开发经验，尤其是大规模数据处理或Pipeline构建项目
展示大模型、Agent或评测平台相关工作经验，如有开源贡献更佳
强调系统设计能力、稳定性优化和可观测性实践，用具体案例说明
深入理解大模型评测方法论，了解常见基准测试、自动评估框架（如MMLU、HumanEval等）
学习分布式系统设计模式，掌握容器化、任务调度、监控告警等基础设施技能

面试指南

STAR法则：描述情境、任务、行动和结果，突出技术决策和工程化落地
系统设计题：从需求分析、架构选型、组件设计、容错与监控等维度展开，注重权衡和扩展性
开放性问题：结合自身经验，提出结构化方案，并讨论可能的优化方向
设计一个可扩展的大模型评测流水线，如何保证稳定性和可观测性？
如何处理Agent交互过程的评测，举例说明任务编排的实现思路
如何定位并修复大规模实验中的失败任务，确保可复现性？
你如何看待代码质量与快速迭代之间的平衡？
描述一个你参与过的复杂系统开发项目，你在其中扮演的角色和遇到的挑战

职位点评

综合评分

大厂核心岗位、前沿技术栈、薪资优厚，但工作强度大、WLB一般。

更适合这类人

适合追求技术成长和高薪回报、能够适应快节奏工作的开发者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展85

工作生活40

使命价值70

薪资福利

80较高

字节跳动薪资在互联网行业处于高位，且为大模型核心岗位，福利齐全，补偿性动机满足程度较高。

薪资信号未披露（AI估算：35K-60K/月）

成长发展

85较高

该职位涉及大模型前沿技术，能深度参与基础设施构建，技术成长空间大，但未明确提及晋升路径。

技术前沿前沿/新兴技术

技术栈大模型、Agent、评测平台、Python、分布式系统

业务类型profit_center

工作生活

40较低

字节跳动工作节奏较快，北京现场办公，未提及弹性或远程，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型评测基础设施建设对AI行业发展有积极意义，但社会影响力间接，使命感中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型与Agent评测基础设施算法工程师-Commercial AI

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型与Agent评测基础设施算法工程师-Commercial AI

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯游戏-高性能算子优化工程师/专家

腾讯游戏-大模型推理性能优化工程师/专家

TAB实验中台-#后台开发工程师#

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型强化学习框架研发工程师/专家

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯游戏-高性能算子优化工程师/专家

腾讯游戏-大模型推理性能优化工程师/专家

TAB实验中台-#后台开发工程师#

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型强化学习框架研发工程师/专家

字节跳动的其他在招职位

字节跳动的其他在招职位