Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
强化学习训练框架工程师
立即应聘

强化学习训练框架工程师

发布于 大约 2 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
软件工程
强化学习
分布式训练
DeepSpeed
FSDP
Megatron
Verl
Grpo
Dapo

AI 估算 · 30k–50k

北京AI方向中级工程师,市场薪资范围30k-50k,B站已上市,16薪为常见水平。

职位详情

关于这个职位

该职位负责强化学习训练框架的架构设计与性能优化,深度分析计算、通信、存储等瓶颈,提升大规模模型训练效率

需要掌握分布式训练和强化学习算法(如GRPO、DAPO),并跟踪MoE、异步RL等前沿技术
适合有2年以上经验、熟悉Python/C++的工程师

最低要求

本科及以上学历,计算机相关专业,2年以上工作经验

熟悉 Python/C++ 中至少一种编程语言,具备扎实的工程基础
深入理解自然语言处理、计算机视觉或多模态算法,熟悉主流的 DiT 与 VLM 模型架构,具备分布式训练(如 FSDP、DeepSpeed、Megatron 等)实战经验
熟悉常见强化学习训练算法(如 GRPO、DAPO 等)及训练框架(如 verl),熟悉异步强化学习范式

工作职责

负责强化学习训练框架的架构设计、研发与性能优化,根据业务需求持续演进训练策略与系统能力,提升大规模模型训练效率

深度分析与定位训练系统中的性能瓶颈(包括计算、通信、存储等),实施针对性优化,提升训练吞吐、稳定性与可扩展性
持续跟踪并集成业界前沿的训练优化技术(如 MoE、异步RL、LoRA RL、Agentic RL 等)

优先资格

有相关领域开源项目贡献经验者优先

具备大规模训练实操经验者优先

AI 洞察

优缺点分析

优点

  • 强化学习训练框架是AI前沿方向,技术积累价值高
  • 团队技术氛围好,有机会跟踪前沿技术如MoE、异步RL
  • 对分布式系统和算法深度要求高,需要持续学习
  • 训练系统优化往往需要深入底层,调试难度大
  • 适合有扎实工程基础、热爱AI训练系统优化、愿意深入底层技术的工程师

缺点 / 挑战

  • B站平台规模大,业务场景丰富,可接触真实大规模训练挑战
  • 可能面临较大项目压力,需要快速迭代

角色解读

  • 可向强化学习训练系统专家方向发展,主导核心框架设计与团队
  • 积累大模型训练优化经验,转型AI基础设施或技术管理岗位
  • 参与开源社区贡献,成为领域知名贡献者
  • 设计并优化强化学习训练框架,提升大规模模型训练效率
  • 分析训练系统中的计算、通信、存储瓶颈,实施针对性优化
  • 跟踪并集成MoE、异步RL等前沿训练技术,持续演进系统能力
  • 扎实的Python或C++编程能力,具备良好工程基础
  • 深入理解NLP/CV/多模态算法及DiT、VLM等模型架构
  • 熟悉分布式训练框架(FSDP、DeepSpeed、Megatron)及强化学习算法(GRPO、DAPO)

申请策略

  • 了解B站在AI内容生成(如AIGC)方面的业务布局,可在面试中展示与之相关的思考
  • 突出分布式训练实战经验,包括使用的框架(FSDP、DeepSpeed等)和优化成果
  • 强调强化学习算法(GRPO、DAPO)和训练框架(verl)的实际应用
  • 如有开源项目贡献或大规模训练经验,务必重点展示
  • 若对异步强化学习不熟悉,可提前了解Actor-Critic架构和采样效率优化
  • 补充MoE、DiT等模型训练特性的理解

面试指南

  • 使用STAR方法描述项目经历,突出问题、行动和量化结果
  • 技术问题先阐述原理,再结合实际案例说明优化思路
  • 展现对系统整体视角的理解,包括计算、通信、存储的权衡
  • 请描述你在分布式训练中遇到的性能瓶颈及优化方法
  • 如何设计一个高效的强化学习训练框架?请考虑异步场景
  • 解释GRPO和DAPO的区别及适用场景
  • 如何看待MoE在训练中的通信开销?如何优化?
  • 你有过大规模模型训练的经验吗?如何保证训练稳定性?

匹配度报告

61
综合匹配度

前沿技术栈,成长空间大,但薪资福利不明且WLB一般。

适合人群
适合注重技术成长、愿意投入高强度工作的求职者,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利50
成长发展85
工作生活45
使命价值65

薪资福利匹配

50较低

薪资未明确但B站上市大型企业,预计处于市场中等偏上,但无额外福利信息,补偿性动机满足一般。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

85较高

职位涉及强化学习、分布式训练等前沿技术,成长空间大,但JD未明确培训或晋升路径。

技术前沿前沿/新兴技术
技术栈强化学习、分布式训练、FSDP、DeepSpeed、Megatron、GRPO、DAPO、MoE、异步RL
业务类型ambiguous

工作生活匹配

45较低

仅现场办公,未提及弹性工作或WLB,可能面临较大工作强度。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

65中等

属于高速增长的AI赛道,但社会影响力中性,公司使命不突出。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • IP授权商务(周边方向)

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • AI Agent产品经理

    哔哩哔哩 · 上海市
    AI 估算 · 20k-35k
  • 娱乐区创作者运营

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • 资深开发工程师(游戏广告营销AI工程方向)

    哔哩哔哩 · 上海市
    AI 估算 · 30k-55k
  • MCN高级商务经理(游戏业务)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-40k

相似职位推荐

  • AI Native 全栈开发实习生-电商-北京

    小红书 · 北京市
    AI 估算 · 4k-7k
  • 混元沙盒平台工程师(北京/深圳/上海)

    腾讯 · 北京市
    AI 估算 · 40k-70k
  • 混元强化训练框架研发工程师(深圳/北京/上海)

    腾讯 · 深圳市
    AI 估算 · 25k-50k
  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 25k-40k
  • Full-Stack Solution Engineer - Sensorized Human

    英伟达 · 上海市
    AI 估算 · 30k-50k

哔哩哔哩 的其他在招职位

  • IP授权商务(周边方向)

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • AI Agent产品经理

    哔哩哔哩 · 上海市
    AI 估算 · 20k-35k
  • 娱乐区创作者运营

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • 资深开发工程师(游戏广告营销AI工程方向)

    哔哩哔哩 · 上海市
    AI 估算 · 30k-55k
  • MCN高级商务经理(游戏业务)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-40k

相似职位推荐

  • AI Native 全栈开发实习生-电商-北京

    小红书 · 北京市
    AI 估算 · 4k-7k
  • 混元沙盒平台工程师(北京/深圳/上海)

    腾讯 · 北京市
    AI 估算 · 40k-70k
  • 混元强化训练框架研发工程师(深圳/北京/上海)

    腾讯 · 深圳市
    AI 估算 · 25k-50k
  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 25k-40k
  • Full-Stack Solution Engineer - Sensorized Human

    英伟达 · 上海市
    AI 估算 · 30k-50k