米哈游的训推平台开发工程师薪资是多少？

该职位薪资范围为 40k–70k（人民币/月）。

训推平台开发工程师的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

米哈游的训推平台开发工程师有什么任职要求？

该职位要求本科学历及高级经验工作经验。

米哈游

训推平台开发工程师

立即应聘

训推平台开发工程师

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

RDMA

NVIDIA

NCCL

NVLINK

分布式训练

Megatron-LM

DeepSpeed

Volcano

AI 估算 · 40k–70k

大厂核心AI基础设施岗，5年+经验且技能稀缺，薪资竞争力强，中位数55K/月

职位详情

关于这个职位

该职位负责米哈游GB300 NVL72集群的训推平台开发，核心工作包括K8s调度器二次开发（Volcano）、分布式训练框架优化（Megatron/DeepSpeed）、NCCL通信库调优以及故障容错系统设计

你将深入GPU互连和RDMA技术栈，解决千卡级训练的效率与稳定性问题

最低要求

计算机科学与技术、软件工程、人工智能等相关专业，本科及以上学历

年以上分布式训练系统或 K8s 平台研发经验

K8s 调度：精通 kube-scheduler framework / scheduler plugins 机制，具备 Volcano 二次开发实战经验*（Kueue / YuniKorn 等其他调度器有同等深度经验者亦可，但需对 Volcano 源码有独立阅读能力），理解 Gang Scheduling、队列、拓扑感知调度的实现

分布式训练框架*：精通 Megatron-LM / DeepSpeed / PyTorch FSDP 中至少一个的内部机制（数据并行 / 张量并行 / 流水并行实现、通信图、checkpoint 机制），具备千卡级训练任务调优实战经验

通信库*：深入理解 NCCL 内部（拓扑发现、ring / tree / NVLS 算法、QP 与 buffer 管理），具备 NCCL 参数调优与代码阅读能力

GPU 互连*：熟悉 NVLink / NVSwitch / Fabric Manager 工作机制，理解 NVLink 域概念及其对训练并行策略的影响

RDMA*：熟悉 RoCE / IB 协议栈基本概念（PFC / ECN / QP）

编程语言*：精通 Go 与 Python，其中 Go 需具备独立开发 K8s 控制器或调度器插件的能力

良好的工程素养与跨团队协作能力，能够主导 P0 训练事件复盘并沉淀技术文档

工作职责

NVL72 内部 GPU 拓扑（机柜内 NVLink fabric、Compute tray ↔ NVSwitch tray 关系、跨柜 rail）的发现、上报与节点标签化

K8s 调度器（Volcano 二次开发 + kube-scheduler framework）的 GB300 rail-aligned 调度策略、Gang Scheduling 适配、跨柜 binpack / spread 策略实现与上线

训练任务启动器（Launcher）的 NVL72 拓扑注入、ENV 配置、NCCLTOPOFILE 自动生成

Megatron-LM / DeepSpeed / PyTorch FSDP 在 NVL72 单机柜内的并行策略最佳实践（TP / PP / DP 切分边界与 NVLink 域对齐）

NCCL 在 NVL72 内部高带宽（NVLink 5）+ 跨柜 RDMA 混合拓扑下的深度调优：算法选择（ring / tree / NVLS）、QP 数、buffer 大小、IB HCA 绑定

训练框架与 NCCL 的代码级 patch、问题上游回报与社区跟进

NVL72 故障域（机柜级 NVLink down、NVSwitch tray 故障、Compute tray 故障）下的训练任务断点续训、整体重试与节点替换语义

训练任务级慢卡 / 慢柜检测：在 all-reduce 时延、step time、GPU SM/Mem 利用率等多维度做联合识别

与 Operator 组、硬件运维 GB300 专项组配合落地"机柜级故障 → 节点替换 → 训练续跑"端到端链路

优先资格

Nvidia GB系列训练经验

rail-aligned / topology-aware 调度设计与落地经验

大规模 K8s 调度器性能调优经验（调度决策耗时、QPS 吞吐、watch 治理）

NCCL / PyTorch / Megatron / Volcano / Kueue 等开源项目源码级修改或上游贡献

万卡级训练任务容错系统（断点续训、慢节点替换、整体重试）实战经验

与 NVIDIA 工程团队的深度技术合作经历（NVL72 / NCCL / Fabric Manager 方向）

ICI / OCS / TPU pod 等其他超大规模 GPU/加速卡互连体系的接触经验

NCCL / PyTorch / kube-scheduler / Linux Kernel 等社区论文发表或开源贡献

AI 洞察

优缺点分析

优点

接触最前沿的NVIDIA GB300 NVL72硬件和训练系统，技术壁垒高，积累极有价值
米哈游作为头部游戏公司，技术投入大，自负盈亏，项目稳定性高
全面覆盖调度、通信、训练框架、容错等分布式系统核心领域，技能树丰富
技术栈深度大，需要同时掌握K8s、NCCL、训练框架等多个复杂系统，学习曲线陡峭
涉及硬件故障处理与7x24小时训练稳定性保障，可能面临高压值班场景
与硬件运维、算子、NVIDIA等多团队协作，沟通协调要求高

缺点 / 挑战

适合对分布式训练和GPU互连有浓厚兴趣、具备系统底层研发能力、喜欢挑战技术难题的资深工程师

角色解读

技术专家路线：成为分布式训练与GPU互连领域的顶级专家，主导下一代训练系统设计
架构师路线：扩展到整个AI基础设施架构，包括网络、存储、调度等
管理路线：带领训练基础设施团队，负责更大规模的集群平台建设
深入NVL72机柜内部GPU拓扑，开发自动化发现与标签化工具，为调度器提供拓扑信息
基于Volcano二次开发实现rail-aligned调度策略，优化千卡级训练任务的Gang Scheduling与跨柜分布
优化Megatron/DeepSpeed等训练框架在NVL72上的并行策略，对齐NVLink域以最大化通信效率
对NCCL进行深度调优和代码级patch，解决混合拓扑下的通信瓶颈，并参与社区贡献
精通K8s调度器开发，特别是Volcano或类似框架的二次开发经验
深入理解NCCL内部机制，具备参数调优和源码阅读能力
熟悉Megatron-LM/DeepSpeed/PyTorch FSDP至少一种，有千卡级调优实战
掌握NVLink/NVSwitch/Fabric Manager知识，理解RDMA协议栈

申请策略

米哈游注重技术深度，准备一个与NVL72或rail-aligned调度相关的技术方案展示
了解米哈游在AI和游戏业务中训练集群的规模与场景，面试中体现业务理解
突出Volcano或其他K8s调度器的二次开发经验，包括具体功能设计和性能指标
详细描述NCCL调优案例，如ring/tree/NVLS算法选择、QP数优化等
提供千卡级训练任务调优的量化成果，如吞吐提升、稳定性改善等
强调开源贡献或源码修改经历，尤其是NCCL/PyTorch/Megatron等仓库
如果有Gang Scheduling或拓扑感知调度经验更好，可提前阅读Volcano源码
加强NCCL源码阅读，理解NVL72拓扑如何影响通信

面试指南

对于调度/通信问题：先明确场景约束（拓扑、资源），再对比不同方案权衡，最后给出具体实现路径
对于系统设计题：从需求分析开始，画架构图，分模块讲解，考虑容错和扩展性
请解释Volcano中Gang Scheduling的实现原理，你会如何扩展它来支持NVL72的rail-aligned调度？
NCCL中ring算法和tree算法在NVL72机柜内和跨柜场景下各有什么优劣？如何选择？
在千卡训练中如果出现慢节点，你如何检测并处理？请描述你的系统设计
Megatron-LM的并行策略（TP/PP/DP）如何与NVLink域对齐？请举例说明
你如何看待Kueue和Volcano的差异？如果我们要统一调度器，你会怎么选型？
熟练阅读并理解Volcano、NCCL和Megatron-LM的核心源码，准备几个源码级分析案例

匹配度报告

综合匹配度

大厂前沿AI基础设施岗，技术天花板极高，但工作强度和生活平衡存疑

适合人群

适合极度关注技术成长、愿意挑战前沿难题、对WLB要求不高的求职者

最强匹配

成长发展匹配

最弱匹配

工作生活匹配

薪资福利60

成长发展95

工作生活40

使命价值60

薪资福利匹配

60中等

薪资水平预计较高（大厂+稀缺技能），但JD未明示具体福利，且未提及薪资范围，给求职者带来不确定感。

薪资信号未披露（AI估算：40K-70K/月）

成长发展匹配

95较高

技术栈处于AI训练最前沿（GB300 NVL72、NCCL深度调优、Volcano二次开发），成长空间巨大，明显满足发展性动机。

技术前沿前沿/新兴技术

技术栈NVL72、GB300、NCCL、Volcano、Megatron-LM、DeepSpeed、PyTorch FSDP、NVLink、RDMA

业务类型profit_center

工作生活匹配

40较低

JD未提及任何WLB信息，地点上海且无远程选项，结合互联网大厂高强度氛围，生活方式满足度较低。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值匹配

60中等

AI训练是高速增长赛道，但岗位主要面向内部基础设施，社会影响力中等，未体现明确使命感。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

米哈游

训推平台开发工程师

立即应聘

训推平台开发工程师

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

RDMA

NVIDIA

NCCL

NVLINK

分布式训练

Megatron-LM

DeepSpeed

Volcano

AI 估算 · 40k–70k

大厂核心AI基础设施岗，5年+经验且技能稀缺，薪资竞争力强，中位数55K/月