字节跳动的强化学习训练框架工程师（火山引擎机器学习平台）-Data AML薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

强化学习训练框架工程师（火山引擎机器学习平台）-Data AML的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的强化学习训练框架工程师（火山引擎机器学习平台）-Data AML有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

强化学习训练框架工程师（火山引擎机器学习平台）-Data AML

立即应聘

强化学习训练框架工程师（火山引擎机器学习平台）-Data AML

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

强化学习

DeepSpeed

Megatron-LM

MPI

NCCL

PyTorch

RPC

vLLM

AI 估算 · 30k–60k

高级AI框架工程师，技能稀缺，字节薪资竞争力强，市场水准较高。

职位详情

关于这个职位

该职位负责字节跳动火山引擎机器学习平台的核心训练框架 veRL 和 veOmini 的研发与优化，主要涉及大模型（LLM/DiT）的强化学习训练框架开发、性能调优及开源社区贡献

你将深度参与前沿技术，推动框架在复杂场景下的规模化应用

最低要求

熟练掌握Linux环境下C/C++、Python编程，具备高效的代码实现与调试能力

深度掌握PyTorch框架，掌握Profiling、调优方式，了解其底层原理

具备训练框架（如Megatron-LM、DeepSpeed、TorchTuner）或推理框架（如vLLM、SG-Lang、TensorRT）的开发和优化经验

熟悉大模型（LLM、DiT）的训练特性，具备模型训练性能瓶颈分析与调优能力

有大规模分布式系统开发或运维经验，熟悉分布式通信库（RPC、NCCL、MPI）的使用与调优

工作职责

veRL框架研发与优化：主导veRL架的核心功能设计与开发，聚焦性能优化与稳定性提升，推动框架在复杂场景（如Agent、Compute Use）下的规模化应用

同时深度参与开源社区生态建设（如技术贡献、文档维护、社区活动组织）

veOmini LLM/DiT训练框架研发与优化：负责veOmini中LLM与DiT训练模块的开发与优化，支持Wan2.1/Qwen/DeepSeek等热点模型的高效后训练和强化学习

优先资格

有GitHub开源社区技术热门项目贡献经验（代码提交、问题解决、文档维护等）

熟悉强化学习（RL）任务特点，具备RL框架或算法优化经验

AI 洞察

优缺点分析

优点

深度接触前沿大模型训练技术，涉及强化学习、分布式系统等高价值技能
参与开源社区建设，提升个人技术影响力
技术难度高，需要同时掌握系统、算法、分布式等多领域知识
需要持续跟进快速迭代的开源社区和模型技术，保持学习节奏
适合热爱底层系统优化、对大模型训练有浓厚兴趣、具备较强工程能力和自驱力的技术人才

缺点 / 挑战

字节跳动的平台和资源，技术挑战大，成长空间广阔
工作强度可能较大，涉及高性能优化和线上问题排查，压力不小

角色解读

可向技术专家方向深耕，成为大规模训练框架或分布式系统的核心贡献者
可转向AI平台架构师或技术Leader，负责整个机器学习平台的训练基础设施
在开源社区积累影响力后，可成为行业知名技术KOL或技术布道师
主导veRL框架的核心功能设计与开发，优化性能与稳定性，推动在Agent等复杂场景下的规模化应用
负责veOmini中LLM与DiT训练模块的开发，支持Wan2.1、Qwen、DeepSeek等热点模型的高效后训练和强化学习
深度参与开源社区生态建设，包括技术贡献、文档维护和社区活动组织
精通C/C++和Python，能在Linux环境下高效编程与调试
深度掌握PyTorch及其底层原理，具备性能分析和调优能力
熟悉大模型训练框架（如Megatron-LM、DeepSpeed）或推理框架（如vLLM、TensorRT），有大规模分布式系统经验

申请策略

面试时准备一个完整的技术案例，展示从问题定位到性能优化的全过程
了解火山引擎AML平台和veRL/veOmini的开源动态，体现对业务的理解
突出在训练框架（如DeepSpeed、Megatron）或推理框架上的实际优化经验，附上性能提升数据
强调分布式系统开发经验，特别是NCCL、RPC等通信库的调优案例
如果有开源项目贡献，务必列出GitHub链接和具体贡献内容
若缺乏RL经验，可提前学习强化学习基础（如PPO、GRPO）及相关框架
补充对vLLM、TensorRT等推理框架的源码理解，增强系统性能力

面试指南

使用STAR法则描述具体问题、行动和结果，突出量化指标
讲解技术方案时先梳理原理框架，再结合实践经验展开
对于开放性问题，展示系统性思考（从现象到根因再到解决方案）
请说说你如何优化一个PyTorch训练脚本的GPU利用率？
在分布式训练中，如何处理模型并行和数据并行混合的场景？
你参与过哪些开源项目？具体贡献了什么？
解释一下NeMo或DeepSpeed ZeRO的原理，你如何在实践中调优？
如果veRL框架在Agent场景下训练不稳定，你会怎么排查和解决？

职位点评

综合评分

前沿技术栈、高成长机会、高薪酬，但工作强度和WLB一般。

更适合这类人

最看重技术成长和前沿挑战，愿意接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活50

使命价值70

薪资福利

75中等

字节跳动薪资在行业内具有较强竞争力，且提供各种福利，但未在JD中明确列出具体福利项。

薪资信号偏高 (30K-60K/月)

成长发展

90较高

该职位技术前沿，涉及大模型、强化学习、分布式系统等尖端领域，有大量成长空间和开源贡献机会。

技术前沿前沿/新兴技术

技术栈veRL、veOmini、LLM、DiT、强化学习、PyTorch、Megatron-LM、DeepSpeed、vLLM、NCCL

成长机会开源社区生态建设、深度参与

业务类型ambiguous

工作生活

50较低

职位未提及远程或弹性办公，上海字节通常要求现场办公，工作强度可能较高，生活化动机满足度中等偏低。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

参与开源社区和前沿技术研发有一定社会价值，但主要是商业驱动，使命感一般。

行业发展高速增长赛道

社会影响中性/一般

使命信号开源社区生态建设

创新程度积极采用新技术

Watch Jobs

字节跳动

强化学习训练框架工程师（火山引擎机器学习平台）-Data AML

立即应聘

强化学习训练框架工程师（火山引擎机器学习平台）-Data AML

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

强化学习

DeepSpeed

Megatron-LM

MPI

NCCL

PyTorch

RPC

vLLM

AI 估算 · 30k–60k

高级AI框架工程师，技能稀缺，字节薪资竞争力强，市场水准较高。

职位详情

关于这个职位

你将深度参与前沿技术，推动框架在复杂场景下的规模化应用

最低要求

熟练掌握Linux环境下C/C++、Python编程，具备高效的代码实现与调试能力

深度掌握PyTorch框架，掌握Profiling、调优方式，了解其底层原理

具备训练框架（如Megatron-LM、DeepSpeed、TorchTuner）或推理框架（如vLLM、SG-Lang、TensorRT）的开发和优化经验

熟悉大模型（LLM、DiT）的训练特性，具备模型训练性能瓶颈分析与调优能力

有大规模分布式系统开发或运维经验，熟悉分布式通信库（RPC、NCCL、MPI）的使用与调优

工作职责

veRL框架研发与优化：主导veRL架的核心功能设计与开发，聚焦性能优化与稳定性提升，推动框架在复杂场景（如Agent、Compute Use）下的规模化应用

同时深度参与开源社区生态建设（如技术贡献、文档维护、社区活动组织）

veOmini LLM/DiT训练框架研发与优化：负责veOmini中LLM与DiT训练模块的开发与优化，支持Wan2.1/Qwen/DeepSeek等热点模型的高效后训练和强化学习

优先资格

有GitHub开源社区技术热门项目贡献经验（代码提交、问题解决、文档维护等）

熟悉强化学习（RL）任务特点，具备RL框架或算法优化经验

AI 洞察

优缺点分析

优点

深度接触前沿大模型训练技术，涉及强化学习、分布式系统等高价值技能
参与开源社区建设，提升个人技术影响力
技术难度高，需要同时掌握系统、算法、分布式等多领域知识
需要持续跟进快速迭代的开源社区和模型技术，保持学习节奏
适合热爱底层系统优化、对大模型训练有浓厚兴趣、具备较强工程能力和自驱力的技术人才

缺点 / 挑战

字节跳动的平台和资源，技术挑战大，成长空间广阔
工作强度可能较大，涉及高性能优化和线上问题排查，压力不小

角色解读

可向技术专家方向深耕，成为大规模训练框架或分布式系统的核心贡献者
可转向AI平台架构师或技术Leader，负责整个机器学习平台的训练基础设施
在开源社区积累影响力后，可成为行业知名技术KOL或技术布道师
主导veRL框架的核心功能设计与开发，优化性能与稳定性，推动在Agent等复杂场景下的规模化应用
负责veOmini中LLM与DiT训练模块的开发，支持Wan2.1、Qwen、DeepSeek等热点模型的高效后训练和强化学习
深度参与开源社区生态建设，包括技术贡献、文档维护和社区活动组织
精通C/C++和Python，能在Linux环境下高效编程与调试
深度掌握PyTorch及其底层原理，具备性能分析和调优能力
熟悉大模型训练框架（如Megatron-LM、DeepSpeed）或推理框架（如vLLM、TensorRT），有大规模分布式系统经验

申请策略

面试时准备一个完整的技术案例，展示从问题定位到性能优化的全过程
了解火山引擎AML平台和veRL/veOmini的开源动态，体现对业务的理解
突出在训练框架（如DeepSpeed、Megatron）或推理框架上的实际优化经验，附上性能提升数据
强调分布式系统开发经验，特别是NCCL、RPC等通信库的调优案例
如果有开源项目贡献，务必列出GitHub链接和具体贡献内容
若缺乏RL经验，可提前学习强化学习基础（如PPO、GRPO）及相关框架
补充对vLLM、TensorRT等推理框架的源码理解，增强系统性能力

面试指南

使用STAR法则描述具体问题、行动和结果，突出量化指标
讲解技术方案时先梳理原理框架，再结合实践经验展开
对于开放性问题，展示系统性思考（从现象到根因再到解决方案）
请说说你如何优化一个PyTorch训练脚本的GPU利用率？
在分布式训练中，如何处理模型并行和数据并行混合的场景？
你参与过哪些开源项目？具体贡献了什么？
解释一下NeMo或DeepSpeed ZeRO的原理，你如何在实践中调优？
如果veRL框架在Agent场景下训练不稳定，你会怎么排查和解决？

职位点评

综合评分

前沿技术栈、高成长机会、高薪酬，但工作强度和WLB一般。

更适合这类人

最看重技术成长和前沿挑战，愿意接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活50

使命价值70

薪资福利

75中等

字节跳动薪资在行业内具有较强竞争力，且提供各种福利，但未在JD中明确列出具体福利项。

薪资信号偏高 (30K-60K/月)

成长发展

90较高

该职位技术前沿，涉及大模型、强化学习、分布式系统等尖端领域，有大量成长空间和开源贡献机会。

技术前沿前沿/新兴技术

技术栈veRL、veOmini、LLM、DiT、强化学习、PyTorch、Megatron-LM、DeepSpeed、vLLM、NCCL

成长机会开源社区生态建设、深度参与

业务类型ambiguous

工作生活

50较低

职位未提及远程或弹性办公，上海字节通常要求现场办公，工作强度可能较高，生活化动机满足度中等偏低。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

参与开源社区和前沿技术研发有一定社会价值，但主要是商业驱动，使命感一般。

行业发展高速增长赛道

社会影响中性/一般

使命信号开源社区生态建设

创新程度积极采用新技术

Watch Jobs

强化学习训练框架工程师（火山引擎机器学习平台）-Data AML

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

强化学习训练框架工程师（火山引擎机器学习平台）-Data AML

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

高级软件研发工程师

营销增长工程师/架构师

高级专家工程师-实线TL（运力平台方向）

高级算法工程师

高级/资深 agent研发工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

高级软件研发工程师

营销增长工程师/架构师

高级专家工程师-实线TL（运力平台方向）

高级算法工程师

高级/资深 agent研发工程师

字节跳动的其他在招职位

字节跳动的其他在招职位