字节跳动的大模型训练系统与优化工程师（VLM/Agent RL方向）-Data薪资是多少？

该职位薪资范围为 40k–70k（人民币/月）。

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的大模型训练系统与优化工程师（VLM/Agent RL方向）-Data有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

立即应聘

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Megatron

分布式训练

大模型

强化学习

Agent Rl

DeepSpeed

FSDP

MoE

PyTorch

AI 估算 · 40k–70k

大厂高级工程师，上海，大模型核心岗位，薪资竞争力强，技术难度高

职位详情

关于这个职位

该职位负责大模型Post-training训练框架的架构演进与优化，专注于超大规模分布式训练、Agent RL框架构建以及多模态支持

你将与顶尖团队合作，解决千亿级模型训练的性能与稳定性挑战，适合对AI基础设施有热情的技术专家

最低要求

具备2年以上机器学习系统设计、开发与性能调优经验，熟练掌握Python与C++

深入理解并具备PyTorch、DeepSpeed、Megatron或FSDP等主流分布式训练框架的二次开发经验

有100B以上超大模型分布式训练实战经验，能够独立排查并解决收敛性问题与分布式训练瓶颈

具备工程素养，对提升AI Infra的研发效率、代码整洁度与系统稳定性有追求

工作职责

统一训练架构建设与演进：负责大模型Post-training框架的代码抽象与底层重构，兼容不同模态、不同训练方式的、正确的、高效的训练框架的建设

超大规模分布式训练优化：面向100B~1T参数级别的超大模型，探索并落地极致的分布式训练策略（DP/TP/PP/EP等组合），通过算子融合、显存优化、分布式策略调整等手段大幅提升集群训练的MFU

Agent RL框架与评估底座建设：攻坚Reasoning RL/Agent RL的训练框架，构建适用于复杂业务环境的标准化评测基准与标准的、稳定的Harness，解决千亿模型在RL阶段的稳定收敛与Rollout效率问题，解决在Agent RL下的长尾问题

多模态与新架构支持：为MoE、Linear Attention等新型模型结构，以及多模态（图、文、音、视）复杂模态的模型训练提供高效支持与正确性（Convergence）验证

优先资格

在强化学习训练框架（PPO/GRPO/Agent RL）或大模型评测底座、Agentic Harness有深度实践者优先

AI 洞察

优缺点分析

优点

深度参与大模型核心技术栈，技术前沿性强，积累宝贵的分布式训练经验
团队技术氛围浓厚，与顶级工程师合作，成长速度快
涉及底层系统优化，问题定位和解决难度高，需要强大的工程能力和耐心
技术迭代迅速，需要持续跟踪前沿论文和开源项目

缺点 / 挑战

字节跳动平台资源丰富，算力和数据支持充足，能够挑战业界顶尖规模模型
工作强度较大，可能面临较高压力和持续学习要求
适合对大规模分布式系统有强烈兴趣、具备扎实工程能力、渴望挑战技术深度的AI工程师

角色解读

成为大模型训练系统方向的专家，主导训练框架的架构演进
向AI基础设施（AI Infra）技术负责人发展，管理团队并推动技术策略
横向拓展到多模态、Agent等前沿领域，提升综合技术影响力
设计和优化大模型Post-training训练框架，进行代码抽象与底层重构，支持多种模态和训练方式
针对百亿至万亿参数模型，探索极致的分布式训练策略，通过算子融合、显存优化等手段提升训练效率
构建强化学习（RL）训练框架，解决Agent RL场景下的稳定性、收敛性和长尾问题，并建立标准化评测基准
支持MoE、Linear Attention等新型架构以及多模态模型的训练，确保正确性和高效性
精通Python和C++，具备2年以上机器学习系统设计与性能调优经验
深入理解PyTorch、DeepSpeed、Megatron或FSDP等分布式框架，并有二次开发经验
有100B以上超大模型分布式训练实战经验，能独立排查训练问题
熟悉强化学习训练框架（PPO/GRPO/Agent RL）或评测底座者优先

申请策略

准备一个完整的项目案例，能清晰讲解从问题定义到优化方案再到效果验证的全过程
关注字节跳动的AI技术博客或公开演讲，展现你对公司技术方向的兴趣
突出分布式训练相关的项目经验，尤其是百亿参数以上模型的实战经历
强调PyTorch、DeepSpeed等框架的二次开发或性能优化成果
如有RL训练框架或评测底座经验，务必重点展示
列举具体的性能提升指标（如MFU提升、训练收敛速度等）
补充强化学习（PPO/GRPO）和Agent相关技术知识，了解主流RL框架
熟悉最新的分布式训练策略（如EP、序列并行）和编译器技术（如Triton）

面试指南

对于系统优化问题，遵循“问题分析 → 瓶颈定位 → 方案设计 → 实验验证 → 迭代优化”的框架
对于算法理解问题，先阐述基本原理，再结合实践案例说明应用场景和trade-off
对于设计问题，从目标出发，考虑约束条件（算力、带宽、数据），给出分层解决方案
请详细描述你参与过的一个分布式训练优化案例，包括使用的策略和取得的收益
如何诊断和解决大模型训练中的收敛性问题？请举例说明
对比PPO和GRPO的优缺点，在Agent RL场景下你更推荐哪种？
如果部署一个千亿参数模型在256张GPU上，你会如何设计分布式策略？
谈谈你对MoE模型训练中负载均衡的理解和优化方法

职位点评

综合评分

大厂核心AI Infra岗位，技术前沿，薪资优厚，但工作强度大，WLB较差。

更适合这类人

最适合追求技术成长和前沿领域探索的求职者，愿意接受较高工作强度以换取职业跃升。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活40

使命价值80

薪资福利

75中等

该职位薪资较高，福利优厚（五险一金、补充医疗等），但未明确具体薪资，属于大厂标准水平。

薪资信号面议 (40K-70K/月)

成长发展

95较高

技术栈极其前沿（大模型、RL、多模态），团队实力强，有大量成长空间和内部培训机会，但JD未明确提及晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、分布式训练、强化学习、Agent RL、VLM、MoE

业务类型ambiguous

工作生活

40较低

字节跳动工作强度较大，上海办公室通常要求现场办公，WLB较差，但地点在市中心？未明确。

工作模式仅现场办公

办公地点未明确

加班情况JD含高强度暗示词

使命价值

80较高

大模型处于高速增长赛道，对AI基础设施有重要社会影响力，但使命导向不明。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

字节跳动

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

立即应聘

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Megatron

分布式训练

大模型

强化学习

Agent Rl

DeepSpeed

FSDP

MoE

PyTorch

AI 估算 · 40k–70k

大厂高级工程师，上海，大模型核心岗位，薪资竞争力强，技术难度高

职位详情

关于这个职位

该职位负责大模型Post-training训练框架的架构演进与优化，专注于超大规模分布式训练、Agent RL框架构建以及多模态支持

你将与顶尖团队合作，解决千亿级模型训练的性能与稳定性挑战，适合对AI基础设施有热情的技术专家

最低要求

具备2年以上机器学习系统设计、开发与性能调优经验，熟练掌握Python与C++

深入理解并具备PyTorch、DeepSpeed、Megatron或FSDP等主流分布式训练框架的二次开发经验

有100B以上超大模型分布式训练实战经验，能够独立排查并解决收敛性问题与分布式训练瓶颈

具备工程素养，对提升AI Infra的研发效率、代码整洁度与系统稳定性有追求

工作职责

统一训练架构建设与演进：负责大模型Post-training框架的代码抽象与底层重构，兼容不同模态、不同训练方式的、正确的、高效的训练框架的建设

优先资格

在强化学习训练框架（PPO/GRPO/Agent RL）或大模型评测底座、Agentic Harness有深度实践者优先

AI 洞察

优缺点分析

优点

深度参与大模型核心技术栈，技术前沿性强，积累宝贵的分布式训练经验
团队技术氛围浓厚，与顶级工程师合作，成长速度快
涉及底层系统优化，问题定位和解决难度高，需要强大的工程能力和耐心
技术迭代迅速，需要持续跟踪前沿论文和开源项目

缺点 / 挑战

字节跳动平台资源丰富，算力和数据支持充足，能够挑战业界顶尖规模模型
工作强度较大，可能面临较高压力和持续学习要求
适合对大规模分布式系统有强烈兴趣、具备扎实工程能力、渴望挑战技术深度的AI工程师

角色解读

成为大模型训练系统方向的专家，主导训练框架的架构演进
向AI基础设施（AI Infra）技术负责人发展，管理团队并推动技术策略
横向拓展到多模态、Agent等前沿领域，提升综合技术影响力
设计和优化大模型Post-training训练框架，进行代码抽象与底层重构，支持多种模态和训练方式
针对百亿至万亿参数模型，探索极致的分布式训练策略，通过算子融合、显存优化等手段提升训练效率
构建强化学习（RL）训练框架，解决Agent RL场景下的稳定性、收敛性和长尾问题，并建立标准化评测基准
支持MoE、Linear Attention等新型架构以及多模态模型的训练，确保正确性和高效性
精通Python和C++，具备2年以上机器学习系统设计与性能调优经验
深入理解PyTorch、DeepSpeed、Megatron或FSDP等分布式框架，并有二次开发经验
有100B以上超大模型分布式训练实战经验，能独立排查训练问题
熟悉强化学习训练框架（PPO/GRPO/Agent RL）或评测底座者优先

申请策略

准备一个完整的项目案例，能清晰讲解从问题定义到优化方案再到效果验证的全过程
关注字节跳动的AI技术博客或公开演讲，展现你对公司技术方向的兴趣
突出分布式训练相关的项目经验，尤其是百亿参数以上模型的实战经历
强调PyTorch、DeepSpeed等框架的二次开发或性能优化成果
如有RL训练框架或评测底座经验，务必重点展示
列举具体的性能提升指标（如MFU提升、训练收敛速度等）
补充强化学习（PPO/GRPO）和Agent相关技术知识，了解主流RL框架
熟悉最新的分布式训练策略（如EP、序列并行）和编译器技术（如Triton）

面试指南

对于系统优化问题，遵循“问题分析 → 瓶颈定位 → 方案设计 → 实验验证 → 迭代优化”的框架
对于算法理解问题，先阐述基本原理，再结合实践案例说明应用场景和trade-off
对于设计问题，从目标出发，考虑约束条件（算力、带宽、数据），给出分层解决方案
请详细描述你参与过的一个分布式训练优化案例，包括使用的策略和取得的收益
如何诊断和解决大模型训练中的收敛性问题？请举例说明
对比PPO和GRPO的优缺点，在Agent RL场景下你更推荐哪种？
如果部署一个千亿参数模型在256张GPU上，你会如何设计分布式策略？
谈谈你对MoE模型训练中负载均衡的理解和优化方法

职位点评

综合评分

大厂核心AI Infra岗位，技术前沿，薪资优厚，但工作强度大，WLB较差。

更适合这类人

最适合追求技术成长和前沿领域探索的求职者，愿意接受较高工作强度以换取职业跃升。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活40

使命价值80

薪资福利

75中等

该职位薪资较高，福利优厚（五险一金、补充医疗等），但未明确具体薪资，属于大厂标准水平。

薪资信号面议 (40K-70K/月)

成长发展

95较高

技术栈极其前沿（大模型、RL、多模态），团队实力强，有大量成长空间和内部培训机会，但JD未明确提及晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、分布式训练、强化学习、Agent RL、VLM、MoE

业务类型ambiguous

工作生活

40较低

字节跳动工作强度较大，上海办公室通常要求现场办公，WLB较差，但地点在市中心？未明确。

工作模式仅现场办公

办公地点未明确

加班情况JD含高强度暗示词

使命价值

80较高

大模型处于高速增长赛道，对AI基础设施有重要社会影响力，但使命导向不明。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型训练系统与优化工程师（VLM/Agent RL方向）-Data

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

字节跳动的其他在招职位