月之暗面的RL infra薪资是多少？

该职位薪资范围为 50k–80k（人民币/月）。

RL infra的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

月之暗面的RL infra有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

月之暗面

RL infra

立即应聘

RL infra

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

GPU优化

CUDA

Megatron-LM

vLLM

PPO

RLHF

DPO

Grpo

AI 估算 · 50k–80k

高级 RL Infra 工程师稀缺，技术难度高，AI 公司薪资竞争力强，结合北京市场行情估算。

职位详情

关于这个职位

这个职位是月之暗面公司的 RL Infra 工程师，主要负责构建强化学习训练基础设施，通过极致的工程优化提升大规模模型训练与推理效率

你将专注于 GPU 性能优化、分布式训练调度以及强化学习算法工程化，直接推动 Kimi 大模型的智能进化

适合对底层硬件和分布式系统有深入理解的技术专家

最低要求

希望你至少熟悉其中一个方面：

通用训练/推理

精通 Megatron-LM 分布式并行（TP/PP/CP/EP），能针对 RL 的多模型场景定制调度策略

熟悉 vLLM / SGLang 核心机制（PageAttention、Prefix Caching、FlashAttention、MTP），具备二次开发能力

扎实的 CUDA / Triton / Cutlass 编程能力，有过算子开发经验，能编写贴合 SM 调度与内存层次的高性能 Kernel

熟练使用 Nsight 工具链进行全链路性能分析，用数据驱动优化

强化学习

深入理解 RLHF / RL 推理的数据流：Policy 采样 → Reward 评估 → 优势估计 → 策略更新，能针对每个环节的负载特征做针对性优化

熟悉 PPO、GRPO、DPO 等算法的工程实现细节，理解其稳定性挑战与优化技巧

有大规模 RL 训练（千卡以上）实战经验，处理过训练崩溃、奖励 Hack、方差爆炸等典型问题

工作职责

核心职责

RL 训练架构* ：针对大规模 Agentic RL 场景，设计训练与采样的混合调度策略，优化多模型（Policy、Reference、Reward、Value）的并行协同与显存共享

Rollout 效率优化* ：深度定制 vLLM，优化 Rollout 阶段的 KV Cache 复用、量化和投机方法，将 Token 生成延迟压至极限

算法/框架/硬件协同优化* ：深入理解硬件，为 RL 的不同算法负载、不同硬件设施定制最优并行策略，最大化 MFU

AI 洞察

优缺点分析

优点

前沿技术栈：接触最先进的 RL 训练框架和 GPU 优化技术，如 Megatron-LM、vLLM、CUDA
核心业务：直接参与大模型 RL 训练基础设施，对 AGI 发展有重要影响
公司平台：月之暗面是明星 AI 创业公司，融资 B 轮，发展迅速，团队技术氛围浓厚
技术难度极高：需要同时掌握分布式系统、GPU 底层优化和强化学习算法
工作强度较大：追求极致性能优化，可能需要应对大规模训练中的突发问题
竞争激烈：AI 领域人才密集，需要持续学习和创新
适合对 GPU 底层技术有狂热兴趣、善于解决问题、追求极致性能的资深系统工程师

缺点 / 挑战

暂无明显挑战项

角色解读

在技术深度上深耕，成为 RL Infra 领域的专家
未来可向算法团队或系统架构方向进阶，主导下一代训练框架设计
在月之暗面快速发展的 AI 公司中，有望成长为技术 Leader 或架构师
设计并优化大规模强化学习训练框架，处理训练与采样的异构负载和多模型并行
深度定制 vLLM 推理引擎，优化 Rollout 阶段的 KV Cache 复用和量化策略，降低延迟
针对不同 RL 算法和硬件设施定制并行策略，最大化 GPU 利用率
与算法团队紧密协作，解决训练崩溃、奖励 Hack 等稳定性问题
精通分布式训练框架如 Megatron-LM，掌握 TP/PP/CP/EP 等并行策略
熟悉 vLLM/SGLang 核心机制，具备二次开发能力
扎实的 CUDA/Triton/Cutlass 编程能力，能手写高性能 Kernel
深入理解 RLHF/PPO/GRPO/DPO 等强化学习算法的工程实现

申请策略

准备一个完整的 RL 训练优化案例，展示从问题分析到方案落地的全过程
了解月之暗面的 Kimi 产品方向和 RL 技术路线
突出大规模分布式训练经验，如千卡以上集群的实战案例
详细描述 GPU 性能优化的成果，如 MFU 提升、延迟降低数据
展示对 Megatron-LM 或 vLLM 等框架的定制改造项目
如果有 RL 算法工程化经验（PPO/GRPO），务必重点说明
深入研究 Megatron-LM 源码和 vLLM 的 PageAttention 机制
练习 CUDA 编程，特别是针对 Transformer 的算子优化

面试指南

先阐述原理，再结合具体场景给出优化方案，最后用数据证明效果
遇到困难问题，先分析瓶颈，然后提出多种方案并权衡
强调系统性思维，从算法、框架、硬件三个层面综合考虑
请解释 Megatron-LM 的 TP/PP/CP 并行策略，并说明在 RL 场景下如何调整
如何优化 vLLM 的 Rollout 阶段延迟？请从 KV Cache 和量化角度分析
描述一次你处理大规模 RL 训练崩溃的经历，以及最终的解决方案
PPO 算法中为什么需要 importance sampling？在工程实现中如何避免 CLIP 惩罚失效？
CUDA Kernel 优化中，如何平衡 SM 占用率和内存带宽？

职位点评

综合评分

前沿技术栈、核心业务、高成长性，但工作强度大、WLB差。

更适合这类人

最适合追求技术极致、不求安逸的工程师，适合看重成长和行业前景的人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展95

工作生活30

使命价值85

薪资福利

70中等

薪资水平市场领先，但 JD 未明确福利，属于中等偏上满足。

薪资信号未披露（AI估算：50K-80K/月）

成长发展

95较高

核心技术栈前沿，工作内容极具挑战性和成长性，发展空间巨大。

技术前沿前沿/新兴技术

技术栈Megatron-LM、vLLM、CUDA、Triton、Cutlass、RLHF、PPO、GRPO、DPO

业务类型profit_center

工作生活

30较低

仅现场办公，JD 含高强度暗示词，WLB 难以保证。

工作模式仅现场办公

办公地点未明确

加班情况JD含高强度暗示词

使命价值

85较高

致力于 AGI 核心路径，创新性强，行业前景光明。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

月之暗面

RL infra

立即应聘

RL infra

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

GPU优化

CUDA

Megatron-LM

vLLM

PPO

RLHF

DPO

Grpo

AI 估算 · 50k–80k

高级 RL Infra 工程师稀缺，技术难度高，AI 公司薪资竞争力强，结合北京市场行情估算。

职位详情

关于这个职位

这个职位是月之暗面公司的 RL Infra 工程师，主要负责构建强化学习训练基础设施，通过极致的工程优化提升大规模模型训练与推理效率

你将专注于 GPU 性能优化、分布式训练调度以及强化学习算法工程化，直接推动 Kimi 大模型的智能进化

适合对底层硬件和分布式系统有深入理解的技术专家

最低要求

希望你至少熟悉其中一个方面：

通用训练/推理

精通 Megatron-LM 分布式并行（TP/PP/CP/EP），能针对 RL 的多模型场景定制调度策略

熟悉 vLLM / SGLang 核心机制（PageAttention、Prefix Caching、FlashAttention、MTP），具备二次开发能力

扎实的 CUDA / Triton / Cutlass 编程能力，有过算子开发经验，能编写贴合 SM 调度与内存层次的高性能 Kernel

熟练使用 Nsight 工具链进行全链路性能分析，用数据驱动优化

强化学习

深入理解 RLHF / RL 推理的数据流：Policy 采样 → Reward 评估 → 优势估计 → 策略更新，能针对每个环节的负载特征做针对性优化

熟悉 PPO、GRPO、DPO 等算法的工程实现细节，理解其稳定性挑战与优化技巧

有大规模 RL 训练（千卡以上）实战经验，处理过训练崩溃、奖励 Hack、方差爆炸等典型问题

工作职责

核心职责

RL 训练架构* ：针对大规模 Agentic RL 场景，设计训练与采样的混合调度策略，优化多模型（Policy、Reference、Reward、Value）的并行协同与显存共享

Rollout 效率优化* ：深度定制 vLLM，优化 Rollout 阶段的 KV Cache 复用、量化和投机方法，将 Token 生成延迟压至极限

算法/框架/硬件协同优化* ：深入理解硬件，为 RL 的不同算法负载、不同硬件设施定制最优并行策略，最大化 MFU

AI 洞察

优缺点分析

优点

前沿技术栈：接触最先进的 RL 训练框架和 GPU 优化技术，如 Megatron-LM、vLLM、CUDA
核心业务：直接参与大模型 RL 训练基础设施，对 AGI 发展有重要影响
公司平台：月之暗面是明星 AI 创业公司，融资 B 轮，发展迅速，团队技术氛围浓厚
技术难度极高：需要同时掌握分布式系统、GPU 底层优化和强化学习算法
工作强度较大：追求极致性能优化，可能需要应对大规模训练中的突发问题
竞争激烈：AI 领域人才密集，需要持续学习和创新
适合对 GPU 底层技术有狂热兴趣、善于解决问题、追求极致性能的资深系统工程师

缺点 / 挑战

暂无明显挑战项

角色解读

在技术深度上深耕，成为 RL Infra 领域的专家
未来可向算法团队或系统架构方向进阶，主导下一代训练框架设计
在月之暗面快速发展的 AI 公司中，有望成长为技术 Leader 或架构师
设计并优化大规模强化学习训练框架，处理训练与采样的异构负载和多模型并行
深度定制 vLLM 推理引擎，优化 Rollout 阶段的 KV Cache 复用和量化策略，降低延迟
针对不同 RL 算法和硬件设施定制并行策略，最大化 GPU 利用率
与算法团队紧密协作，解决训练崩溃、奖励 Hack 等稳定性问题
精通分布式训练框架如 Megatron-LM，掌握 TP/PP/CP/EP 等并行策略
熟悉 vLLM/SGLang 核心机制，具备二次开发能力
扎实的 CUDA/Triton/Cutlass 编程能力，能手写高性能 Kernel
深入理解 RLHF/PPO/GRPO/DPO 等强化学习算法的工程实现

申请策略

准备一个完整的 RL 训练优化案例，展示从问题分析到方案落地的全过程
了解月之暗面的 Kimi 产品方向和 RL 技术路线
突出大规模分布式训练经验，如千卡以上集群的实战案例
详细描述 GPU 性能优化的成果，如 MFU 提升、延迟降低数据
展示对 Megatron-LM 或 vLLM 等框架的定制改造项目
如果有 RL 算法工程化经验（PPO/GRPO），务必重点说明
深入研究 Megatron-LM 源码和 vLLM 的 PageAttention 机制
练习 CUDA 编程，特别是针对 Transformer 的算子优化

面试指南

先阐述原理，再结合具体场景给出优化方案，最后用数据证明效果
遇到困难问题，先分析瓶颈，然后提出多种方案并权衡
强调系统性思维，从算法、框架、硬件三个层面综合考虑
请解释 Megatron-LM 的 TP/PP/CP 并行策略，并说明在 RL 场景下如何调整
如何优化 vLLM 的 Rollout 阶段延迟？请从 KV Cache 和量化角度分析
描述一次你处理大规模 RL 训练崩溃的经历，以及最终的解决方案
PPO 算法中为什么需要 importance sampling？在工程实现中如何避免 CLIP 惩罚失效？
CUDA Kernel 优化中，如何平衡 SM 占用率和内存带宽？

职位点评

综合评分

前沿技术栈、核心业务、高成长性，但工作强度大、WLB差。

更适合这类人

最适合追求技术极致、不求安逸的工程师，适合看重成长和行业前景的人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展95

工作生活30

使命价值85

薪资福利

70中等

薪资水平市场领先，但 JD 未明确福利，属于中等偏上满足。

薪资信号未披露（AI估算：50K-80K/月）

成长发展

95较高

核心技术栈前沿，工作内容极具挑战性和成长性，发展空间巨大。

技术前沿前沿/新兴技术

技术栈Megatron-LM、vLLM、CUDA、Triton、Cutlass、RLHF、PPO、GRPO、DPO

业务类型profit_center

工作生活

30较低

仅现场办公，JD 含高强度暗示词，WLB 难以保证。

工作模式仅现场办公

办公地点未明确

加班情况JD含高强度暗示词

使命价值

85较高

致力于 AGI 核心路径，创新性强，行业前景光明。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

RL infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

RL infra

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

月之暗面 的其他在招职位

销售运营实习生（AI 流程自动化方向）

数据开发工程师

API开放平台工程师

数据平台开发工程师

Business Development & Ecosystem

相似职位推荐

Machine Learning Engineer

Industrial Engineering ES

SLG（海外）-unity客户端开发工程师

混元大模型平台研发工程师（北京/深圳）

软件开发实习生-C++/Python

月之暗面 的其他在招职位

销售运营实习生（AI 流程自动化方向）

数据开发工程师

API开放平台工程师

数据平台开发工程师

Business Development & Ecosystem

相似职位推荐

Machine Learning Engineer

Industrial Engineering ES

SLG（海外）-unity客户端开发工程师

混元大模型平台研发工程师（北京/深圳）

软件开发实习生-C++/Python

月之暗面的其他在招职位

月之暗面的其他在招职位