Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
强化学习训练框架工程师(火山引擎机器学习平台)-Data AML
立即应聘

强化学习训练框架工程师(火山引擎机器学习平台)-Data AML

发布于 大约 11 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
软件工程
分布式系统
PyTorch
强化学习
LLM
NCCL
Megatron-LM
DeepSpeed
vLLM

AI 估算 · 35k–60k

职位要求高,涉及前沿大模型与分布式系统,字节跳动薪资竞争力强,高级工程师月薪35k-60k,16薪

职位详情

关于这个职位

该职位是字节跳动火山引擎机器学习平台的核心技术岗,负责强化学习训练框架 veRL 与 veOmini 的研发与优化,推动框架在大模型后训练和 RL 场景的规模化应用

你将深度参与开源社区建设,并涉及 LLM/DiT 等热点模型的高效训练,适合对分布式系统和高性能计算有浓厚兴趣的资深工程师

最低要求

熟练掌握Linux环境下C/C++、Python编程,具备高效的代码实现与调试能力

深度掌握PyTorch框架,掌握Profiling、调优方式,了解其底层原理
具备训练框架(如Megatron-LM、DeepSpeed、TorchTuner)或推理框架(如vLLM、SG-Lang、TensorRT)的开发和优化经验
熟悉大模型(LLM、DiT)的训练特性,具备模型训练性能瓶颈分析与调优能力
有大规模分布式系统开发或运维经验,熟悉分布式通信库(RPC、NCCL、MPI)的使用与调优

工作职责

veRL框架研发与优化:主导veRL架的核心功能设计与开发,聚焦性能优化与稳定性提升,推动框架在复杂场景(如Agent、Compute Use)下的规模化应用

同时深度参与开源社区生态建设(如技术贡献、文档维护、社区活动组织)
veOmini LLM/DiT训练框架研发与优化:负责veOmini中LLM与DiT训练模块的开发与优化,支持Wan2.1/Qwen/DeepSeek等热点模型的高效后训练和强化学习

优先资格

有GitHub开源社区技术热门项目贡献经验(代码提交、问题解决、文档维护等)

熟悉强化学习(RL)任务特点,具备RL框架或算法优化经验

AI 洞察

优缺点分析

优点

  • 前沿技术领域,深度参与大模型和强化学习训练框架的核心研发,技术成长空间大
  • 字节跳动平台,拥有海量业务场景和数据资源,工作成果直接应用于一线产品
  • 开源社区参与机会,提升个人技术品牌,积累行业影响力
  • 技术复杂度高,需要同时掌握分布式系统、CUDA、PyTorch底层等多种技能,学习曲线陡峭
  • 工作强度可能较大,大模型训练优化任务往往时间紧迫,需要快速迭代
  • 对系统性思维和问题排查能力要求高,频繁的Profiling和调优需要耐心

缺点 / 挑战

  • 适合深耕高性能计算和AI Infra领域的资深工程师,对技术有极致追求,愿意挑战大规模分布式系统和大模型训练瓶颈

角色解读

  • 技术深度上,可成为分布式训练和RL框架领域的顶级专家,影响行业标准
  • 管理路径上,可带领框架研发团队,负责更大规模的技术规划与落地
  • 开源社区路径上,通过贡献和影响力,成为社区核心维护者甚至技术领袖
  • 设计和优化veRL强化学习训练框架,保证性能和稳定性,支持Agent等复杂场景
  • 开发veOmini中LLM/DiT的训练模块,支撑Wan2.1、Qwen、DeepSeek等模型的高效后训练
  • 参与开源社区建设,贡献代码、维护文档、组织社区活动,提升框架影响力
  • 扎实的C/C++和Python编程能力,能高效实现和调试底层系统
  • 对PyTorch有深刻理解,熟悉Profiling和性能调优,了解其底层原理
  • 有大模型训练框架(如Megatron-LM、DeepSpeed)或推理框架(如vLLM)的开发优化经验
  • 熟悉大规模分布式系统,精通NCCL、RPC等通信库的调优

申请策略

  • 准备一个你主导的大型系统性能优化案例,用数据说明优化前后的提升
  • 面试前了解火山引擎机器学习平台的产品定位和veRL框架的现状,提出建设性改进思路
  • 突出在大模型训练框架(Megatron-LM、DeepSpeed等)或推理框架(vLLM等)的实际优化案例和成果
  • 强调分布式系统经验,包括多机多卡通信调优、NCCL使用等具体项目
  • 展示在开源社区的贡献,如PR、issue解决、文档等,尤其是热门项目
  • 如果有RL相关经验,务必重点描述,这是重要的加分项
  • 深入学习PyTorch源码,尤其是分布式训练和自动混合精度相关模块
  • 熟悉NCCL原理和调优,实践CUDA编程和通信优化

面试指南

  • 对于性能优化问题,采用“问题识别-根因分析-解决方案-效果量化”的框架,先描述现象再深入
  • 对于设计类问题,先列出核心需求(可扩展性、性能、易用性),再对比现有方案,提出创新点
  • 对于开源经历,强调具体贡献类型(代码、文档、社区互动)和影响力(star数、用户反馈)
  • 请详细描述你在Megatron-LM或DeepSpeed中做过的性能优化工作,具体遇到了哪些瓶颈?如何解决的?
  • 解释PyTorch中DDP和FSDP的区别,以及在训练大模型时如何选择?
  • 如何调试和优化分布式训练中的通信瓶颈?请举例说明NCCL调优方法
  • 你对veRL框架有什么了解?如果让你设计一个RL训练框架,你会考虑哪些关键设计?
  • 你参与过哪个开源项目?贡献了什么?如何与社区协作?

职位点评

70
综合评分

前沿RL训练框架研发,技术成长极佳,但现场办公强度未知,适合技术狂热者。

更适合这类人
适合极度看重技术成长和前沿领域,愿意投入时间攻坚技术难题,对工作生活平衡要求不高的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展95
工作生活40
使命价值70

薪资福利

75中等

字节跳动薪资在行业内有竞争力,但该职位未明确薪资范围,且工作地点在北京,综合来看补偿性动机满足程度较好。

薪资信号未披露(AI估算:35K-60K/月)

成长发展

95较高

职位涉及前沿的RL训练框架和大模型技术,有开源社区参与机会,技术成长空间极大,发展性动机高度满足。

技术前沿前沿/新兴技术
技术栈veRL、veOmini、LLM、DiT、PyTorch、Megatron-LM、DeepSpeed、NCCL
业务类型profit_center

工作生活

40较低

未提及远程或弹性工作,字节跳动通常现场办公且可能有较高强度,生活化动机满足程度有限。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

大模型和AI Infra是高速增长赛道,技术影响力高,但社会价值中性,意义感动机有一定满足。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k