哔哩哔哩的强化学习训练框架工程师薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

强化学习训练框架工程师的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

哔哩哔哩的强化学习训练框架工程师有什么任职要求？

该职位要求本科学历及中级经验工作经验。

哔哩哔哩

强化学习训练框架工程师

立即应聘

强化学习训练框架工程师

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

软件工程

Dapo

Grpo

Megatron

Verl

分布式训练

强化学习

DeepSpeed

FSDP

AI 估算 · 30k–50k

北京AI方向中级工程师，市场薪资范围30k-50k，B站已上市，16薪为常见水平。

职位详情

关于这个职位

该职位负责强化学习训练框架的架构设计与性能优化，深度分析计算、通信、存储等瓶颈，提升大规模模型训练效率

需要掌握分布式训练和强化学习算法（如GRPO、DAPO），并跟踪MoE、异步RL等前沿技术

适合有2年以上经验、熟悉Python/C++的工程师

最低要求

本科及以上学历，计算机相关专业，2年以上工作经验

熟悉 Python/C++ 中至少一种编程语言，具备扎实的工程基础

深入理解自然语言处理、计算机视觉或多模态算法，熟悉主流的 DiT 与 VLM 模型架构，具备分布式训练（如 FSDP、DeepSpeed、Megatron 等）实战经验

熟悉常见强化学习训练算法（如 GRPO、DAPO 等）及训练框架（如 verl），熟悉异步强化学习范式

工作职责

负责强化学习训练框架的架构设计、研发与性能优化，根据业务需求持续演进训练策略与系统能力，提升大规模模型训练效率

深度分析与定位训练系统中的性能瓶颈（包括计算、通信、存储等），实施针对性优化，提升训练吞吐、稳定性与可扩展性

持续跟踪并集成业界前沿的训练优化技术（如 MoE、异步RL、LoRA RL、Agentic RL 等）

优先资格

有相关领域开源项目贡献经验者优先

具备大规模训练实操经验者优先

AI 洞察

优缺点分析

优点

强化学习训练框架是AI前沿方向，技术积累价值高
团队技术氛围好，有机会跟踪前沿技术如MoE、异步RL
对分布式系统和算法深度要求高，需要持续学习
训练系统优化往往需要深入底层，调试难度大
适合有扎实工程基础、热爱AI训练系统优化、愿意深入底层技术的工程师

缺点 / 挑战

B站平台规模大，业务场景丰富，可接触真实大规模训练挑战
可能面临较大项目压力，需要快速迭代

角色解读

可向强化学习训练系统专家方向发展，主导核心框架设计与团队
积累大模型训练优化经验，转型AI基础设施或技术管理岗位
参与开源社区贡献，成为领域知名贡献者
设计并优化强化学习训练框架，提升大规模模型训练效率
分析训练系统中的计算、通信、存储瓶颈，实施针对性优化
跟踪并集成MoE、异步RL等前沿训练技术，持续演进系统能力
扎实的Python或C++编程能力，具备良好工程基础
深入理解NLP/CV/多模态算法及DiT、VLM等模型架构
熟悉分布式训练框架（FSDP、DeepSpeed、Megatron）及强化学习算法（GRPO、DAPO）

申请策略

了解B站在AI内容生成（如AIGC）方面的业务布局，可在面试中展示与之相关的思考
突出分布式训练实战经验，包括使用的框架（FSDP、DeepSpeed等）和优化成果
强调强化学习算法（GRPO、DAPO）和训练框架（verl）的实际应用
如有开源项目贡献或大规模训练经验，务必重点展示
若对异步强化学习不熟悉，可提前了解Actor-Critic架构和采样效率优化
补充MoE、DiT等模型训练特性的理解

面试指南

使用STAR方法描述项目经历，突出问题、行动和量化结果
技术问题先阐述原理，再结合实际案例说明优化思路
展现对系统整体视角的理解，包括计算、通信、存储的权衡
请描述你在分布式训练中遇到的性能瓶颈及优化方法
如何设计一个高效的强化学习训练框架？请考虑异步场景
解释GRPO和DAPO的区别及适用场景
如何看待MoE在训练中的通信开销？如何优化？
你有过大规模模型训练的经验吗？如何保证训练稳定性？

职位点评

综合评分

前沿技术栈，成长空间大，但薪资福利不明且WLB一般。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

适合注重技术成长、愿意投入高强度工作的求职者，对工作生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利50

成长发展85

工作生活45

使命价值65

薪资福利

50较低

薪资未明确但B站上市大型企业，预计处于市场中等偏上，但无额外福利信息，补偿性动机满足一般。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

85较高

职位涉及强化学习、分布式训练等前沿技术，成长空间大，但JD未明确培训或晋升路径。

技术前沿前沿/新兴技术

技术栈强化学习、分布式训练、FSDP、DeepSpeed、Megatron、GRPO、DAPO、MoE、异步RL

业务类型ambiguous

工作生活

45较低

仅现场办公，未提及弹性工作或WLB，可能面临较大工作强度。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

属于高速增长的AI赛道，但社会影响力中性，公司使命不突出。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

哔哩哔哩的其他在招职位

相似职位推荐

Watch Jobs

强化学习训练框架工程师

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

游戏国内广告创意编导-像素/卡牌

直播营收流量策略产品

会员活动营销

OTT收入增长运营

游戏国内广告投放-二次元

海康机器人-应用软件开发工程师-杭州

软件产品-应用软件开发工程师-Java-杭州

具身数据平台开发工程师 / 架构师

软件开发岗（广告外投引擎方向）

服务端开发专家

哔哩哔哩的其他在招职位

游戏国内广告创意编导-像素/卡牌

直播营收流量策略产品

会员活动营销

OTT收入增长运营

游戏国内广告投放-二次元

相似职位推荐

海康机器人-应用软件开发工程师-杭州

软件产品-应用软件开发工程师-Java-杭州

具身数据平台开发工程师 / 架构师

软件开发岗（广告外投引擎方向）

服务端开发专家

强化学习训练框架工程师

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

哔哩哔哩 的其他在招职位

游戏国内广告创意编导-像素/卡牌

直播营收流量策略产品

会员活动营销

OTT收入增长运营

游戏国内广告投放-二次元

相似职位推荐

海康机器人-应用软件开发工程师-杭州

软件产品-应用软件开发工程师-Java-杭州

具身数据平台开发工程师 / 架构师

软件开发岗（广告外投引擎方向）

服务端开发专家

哔哩哔哩的其他在招职位