
月之暗面
RL infra
RL infra
发布于 1 天前普通员工/个人贡献者
北京市
高级经验
全职员工
仅现场办公
学历未注明
GPU优化
CUDA
Megatron-LM
vLLM
PPO
RLHF
DPO
Grpo
AI 估算 · 50k–80k
高级 RL Infra 工程师稀缺,技术难度高,AI 公司薪资竞争力强,结合北京市场行情估算。
职位详情
关于这个职位
这个职位是月之暗面公司的 RL Infra 工程师,主要负责构建强化学习训练基础设施,通过极致的工程优化提升大规模模型训练与推理效率
你将专注于 GPU 性能优化、分布式训练调度以及强化学习算法工程化,直接推动 Kimi 大模型的智能进化
适合对底层硬件和分布式系统有深入理解的技术专家
最低要求
希望你至少熟悉其中一个方面:
通用训练/推理
精通 Megatron-LM 分布式并行(TP/PP/CP/EP),能针对 RL 的多模型场景定制调度策略
熟悉 vLLM / SGLang 核心机制(PageAttention、Prefix Caching、FlashAttention、MTP),具备二次开发能力
扎实的 CUDA / Triton / Cutlass 编程能力,有过算子开发经验,能编写贴合 SM 调度与内存层次的高性能 Kernel
熟练使用 Nsight 工具链进行全链路性能分析,用数据驱动优化
强化学习
深入理解 RLHF / RL 推理的数据流:Policy 采样 → Reward 评估 → 优势估计 → 策略更新,能针对每个环节的负载特征做针对性优化
熟悉 PPO、GRPO、DPO 等算法的工程实现细节,理解其稳定性挑战与优化技巧
有大规模 RL 训练(千卡以上)实战经验,处理过训练崩溃、奖励 Hack、方差爆炸等典型问题
工作职责
核心职责
RL 训练架构* :针对大规模 Agentic RL 场景,设计训练与采样的混合调度策略,优化多模型(Policy、Reference、Reward、Value)的并行协同与显存共享
Rollout 效率优化* :深度定制 vLLM,优化 Rollout 阶段的 KV Cache 复用、量化和投机方法,将 Token 生成延迟压至极限
算法/框架/硬件协同优化* :深入理解硬件,为 RL 的不同算法负载、不同硬件设施定制最优并行策略,最大化 MFU
AI 洞察
优缺点分析
优点
- 前沿技术栈:接触最先进的 RL 训练框架和 GPU 优化技术,如 Megatron-LM、vLLM、CUDA
- 核心业务:直接参与大模型 RL 训练基础设施,对 AGI 发展有重要影响
- 公司平台:月之暗面是明星 AI 创业公司,融资 B 轮,发展迅速,团队技术氛围浓厚
- 技术难度极高:需要同时掌握分布式系统、GPU 底层优化和强化学习算法
- 工作强度较大:追求极致性能优化,可能需要应对大规模训练中的突发问题
- 竞争激烈:AI 领域人才密集,需要持续学习和创新
- 适合对 GPU 底层技术有狂热兴趣、善于解决问题、追求极致性能的资深系统工程师
缺点 / 挑战
暂无明显挑战项
角色解读
- 在技术深度上深耕,成为 RL Infra 领域的专家
- 未来可向算法团队或系统架构方向进阶,主导下一代训练框架设计
- 在月之暗面快速发展的 AI 公司中,有望成长为技术 Leader 或架构师
- 设计并优化大规模强化学习训练框架,处理训练与采样的异构负载和多模型并行
- 深度定制 vLLM 推理引擎,优化 Rollout 阶段的 KV Cache 复用和量化策略,降低延迟
- 针对不同 RL 算法和硬件设施定制并行策略,最大化 GPU 利用率
- 与算法团队紧密协作,解决训练崩溃、奖励 Hack 等稳定性问题
- 精通分布式训练框架如 Megatron-LM,掌握 TP/PP/CP/EP 等并行策略
- 熟悉 vLLM/SGLang 核心机制,具备二次开发能力
- 扎实的 CUDA/Triton/Cutlass 编程能力,能手写高性能 Kernel
- 深入理解 RLHF/PPO/GRPO/DPO 等强化学习算法的工程实现
申请策略
- 准备一个完整的 RL 训练优化案例,展示从问题分析到方案落地的全过程
- 了解月之暗面的 Kimi 产品方向和 RL 技术路线
- 突出大规模分布式训练经验,如千卡以上集群的实战案例
- 详细描述 GPU 性能优化的成果,如 MFU 提升、延迟降低数据
- 展示对 Megatron-LM 或 vLLM 等框架的定制改造项目
- 如果有 RL 算法工程化经验(PPO/GRPO),务必重点说明
- 深入研究 Megatron-LM 源码和 vLLM 的 PageAttention 机制
- 练习 CUDA 编程,特别是针对 Transformer 的算子优化
面试指南
- 先阐述原理,再结合具体场景给出优化方案,最后用数据证明效果
- 遇到困难问题,先分析瓶颈,然后提出多种方案并权衡
- 强调系统性思维,从算法、框架、硬件三个层面综合考虑
- 请解释 Megatron-LM 的 TP/PP/CP 并行策略,并说明在 RL 场景下如何调整
- 如何优化 vLLM 的 Rollout 阶段延迟?请从 KV Cache 和量化角度分析
- 描述一次你处理大规模 RL 训练崩溃的经历,以及最终的解决方案
- PPO 算法中为什么需要 importance sampling?在工程实现中如何避免 CLIP 惩罚失效?
- CUDA Kernel 优化中,如何平衡 SM 占用率和内存带宽?
匹配度报告
70
综合匹配度
前沿技术栈、核心业务、高成长性,但工作强度大、WLB差。
适合人群
最适合追求技术极致、不求安逸的工程师,适合看重成长和行业前景的人。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活30
使命价值85
薪资福利匹配
70中等
薪资水平市场领先,但 JD 未明确福利,属于中等偏上满足。
薪资信号未披露(AI估算:50K-80K/月)
成长发展匹配
95较高
核心技术栈前沿,工作内容极具挑战性和成长性,发展空间巨大。
技术前沿前沿/新兴技术
技术栈Megatron-LM、vLLM、CUDA、Triton、Cutlass、RLHF、PPO、GRPO、DPO
业务类型profit_center
工作生活匹配
30较低
仅现场办公,JD 含高强度暗示词,WLB 难以保证。
工作模式仅现场办公
办公地点未明确
加班情况JD含高强度暗示词
使命价值匹配
85较高
致力于 AGI 核心路径,创新性强,行业前景光明。
行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
月之暗面 的其他在招职位
相似职位推荐
Watch Jobs