Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
训推平台开发工程师
立即应聘

训推平台开发工程师

发布于 大约 21 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
PyTorch
RDMA
NVIDIA
NCCL
NVLINK
分布式训练
Megatron-LM
DeepSpeed
Volcano

AI 估算 · 40k–70k

大厂核心AI基础设施岗,5年+经验且技能稀缺,薪资竞争力强,中位数55K/月

职位详情

关于这个职位

该职位负责米哈游GB300 NVL72集群的训推平台开发,核心工作包括K8s调度器二次开发(Volcano)、分布式训练框架优化(Megatron/DeepSpeed)、NCCL通信库调优以及故障容错系统设计

你将深入GPU互连和RDMA技术栈,解决千卡级训练的效率与稳定性问题

最低要求

计算机科学与技术、软件工程、人工智能等相关专业,本科及以上学历

年以上分布式训练系统或 K8s 平台研发经验
K8s 调度:精通 kube-scheduler framework / scheduler plugins 机制,具备 Volcano 二次开发实战经验*(Kueue / YuniKorn 等其他调度器有同等深度经验者亦可,但需对 Volcano 源码有独立阅读能力),理解 Gang Scheduling、队列、拓扑感知调度的实现
分布式训练框架*:精通 Megatron-LM / DeepSpeed / PyTorch FSDP 中至少一个的内部机制(数据并行 / 张量并行 / 流水并行实现、通信图、checkpoint 机制),具备千卡级训练任务调优实战经验
通信库*:深入理解 NCCL 内部(拓扑发现、ring / tree / NVLS 算法、QP 与 buffer 管理),具备 NCCL 参数调优与代码阅读能力
GPU 互连*:熟悉 NVLink / NVSwitch / Fabric Manager 工作机制,理解 NVLink 域概念及其对训练并行策略的影响
RDMA*:熟悉 RoCE / IB 协议栈基本概念(PFC / ECN / QP)
编程语言*:精通 Go 与 Python,其中 Go 需具备独立开发 K8s 控制器或调度器插件的能力
良好的工程素养与跨团队协作能力,能够主导 P0 训练事件复盘并沉淀技术文档

工作职责

NVL72 内部 GPU 拓扑(机柜内 NVLink fabric、Compute tray ↔ NVSwitch tray 关系、跨柜 rail)的发现、上报与节点标签化

K8s 调度器(Volcano 二次开发 + kube-scheduler framework)的 GB300 rail-aligned 调度策略、Gang Scheduling 适配、跨柜 binpack / spread 策略实现与上线
训练任务启动器(Launcher)的 NVL72 拓扑注入、ENV 配置、NCCLTOPOFILE 自动生成
Megatron-LM / DeepSpeed / PyTorch FSDP 在 NVL72 单机柜内的并行策略最佳实践(TP / PP / DP 切分边界与 NVLink 域对齐)
NCCL 在 NVL72 内部高带宽(NVLink 5)+ 跨柜 RDMA 混合拓扑下的深度调优:算法选择(ring / tree / NVLS)、QP 数、buffer 大小、IB HCA 绑定
训练框架与 NCCL 的代码级 patch、问题上游回报与社区跟进
NVL72 故障域(机柜级 NVLink down、NVSwitch tray 故障、Compute tray 故障)下的训练任务断点续训、整体重试与节点替换语义
训练任务级慢卡 / 慢柜检测:在 all-reduce 时延、step time、GPU SM/Mem 利用率等多维度做联合识别
与 Operator 组、硬件运维 GB300 专项组配合落地"机柜级故障 → 节点替换 → 训练续跑"端到端链路

优先资格

Nvidia GB系列训练经验

rail-aligned / topology-aware 调度设计与落地经验
大规模 K8s 调度器性能调优经验(调度决策耗时、QPS 吞吐、watch 治理)
NCCL / PyTorch / Megatron / Volcano / Kueue 等开源项目源码级修改或上游贡献
万卡级训练任务容错系统(断点续训、慢节点替换、整体重试)实战经验
与 NVIDIA 工程团队的深度技术合作经历(NVL72 / NCCL / Fabric Manager 方向)
ICI / OCS / TPU pod 等其他超大规模 GPU/加速卡互连体系的接触经验
NCCL / PyTorch / kube-scheduler / Linux Kernel 等社区论文发表或开源贡献

AI 洞察

优缺点分析

  • 接触最前沿的NVIDIA GB300 NVL72硬件和训练系统,技术壁垒高,积累极有价值
  • 米哈游作为头部游戏公司,技术投入大,自负盈亏,项目稳定性高
  • 全面覆盖调度、通信、训练框架、容错等分布式系统核心领域,技能树丰富
  • 技术栈深度大,需要同时掌握K8s、NCCL、训练框架等多个复杂系统,学习曲线陡峭
  • 涉及硬件故障处理与7x24小时训练稳定性保障,可能面临高压值班场景
  • 与硬件运维、算子、NVIDIA等多团队协作,沟通协调要求高
  • 适合对分布式训练和GPU互连有浓厚兴趣、具备系统底层研发能力、喜欢挑战技术难题的资深工程师

角色解读

  • 技术专家路线:成为分布式训练与GPU互连领域的顶级专家,主导下一代训练系统设计
  • 架构师路线:扩展到整个AI基础设施架构,包括网络、存储、调度等
  • 管理路线:带领训练基础设施团队,负责更大规模的集群平台建设
  • 深入NVL72机柜内部GPU拓扑,开发自动化发现与标签化工具,为调度器提供拓扑信息
  • 基于Volcano二次开发实现rail-aligned调度策略,优化千卡级训练任务的Gang Scheduling与跨柜分布
  • 优化Megatron/DeepSpeed等训练框架在NVL72上的并行策略,对齐NVLink域以最大化通信效率
  • 对NCCL进行深度调优和代码级patch,解决混合拓扑下的通信瓶颈,并参与社区贡献
  • 精通K8s调度器开发,特别是Volcano或类似框架的二次开发经验
  • 深入理解NCCL内部机制,具备参数调优和源码阅读能力
  • 熟悉Megatron-LM/DeepSpeed/PyTorch FSDP至少一种,有千卡级调优实战
  • 掌握NVLink/NVSwitch/Fabric Manager知识,理解RDMA协议栈

申请策略

  • 米哈游注重技术深度,准备一个与NVL72或rail-aligned调度相关的技术方案展示
  • 了解米哈游在AI和游戏业务中训练集群的规模与场景,面试中体现业务理解
  • 突出Volcano或其他K8s调度器的二次开发经验,包括具体功能设计和性能指标
  • 详细描述NCCL调优案例,如ring/tree/NVLS算法选择、QP数优化等
  • 提供千卡级训练任务调优的量化成果,如吞吐提升、稳定性改善等
  • 强调开源贡献或源码修改经历,尤其是NCCL/PyTorch/Megatron等仓库
  • 如果有Gang Scheduling或拓扑感知调度经验更好,可提前阅读Volcano源码
  • 加强NCCL源码阅读,理解NVL72拓扑如何影响通信

面试指南

  • 对于调度/通信问题:先明确场景约束(拓扑、资源),再对比不同方案权衡,最后给出具体实现路径
  • 对于系统设计题:从需求分析开始,画架构图,分模块讲解,考虑容错和扩展性
  • 请解释Volcano中Gang Scheduling的实现原理,你会如何扩展它来支持NVL72的rail-aligned调度?
  • NCCL中ring算法和tree算法在NVL72机柜内和跨柜场景下各有什么优劣?如何选择?
  • 在千卡训练中如果出现慢节点,你如何检测并处理?请描述你的系统设计
  • Megatron-LM的并行策略(TP/PP/DP)如何与NVLink域对齐?请举例说明
  • 你如何看待Kueue和Volcano的差异?如果我们要统一调度器,你会怎么选型?
  • 熟练阅读并理解Volcano、NCCL和Megatron-LM的核心源码,准备几个源码级分析案例

匹配度报告

64
综合匹配度

大厂前沿AI基础设施岗,技术天花板极高,但工作强度和生活平衡存疑

适合人群
适合极度关注技术成长、愿意挑战前沿难题、对WLB要求不高的求职者
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利60
成长发展95
工作生活40
使命价值60

薪资福利匹配

60中等

薪资水平预计较高(大厂+稀缺技能),但JD未明示具体福利,且未提及薪资范围,给求职者带来不确定感。

薪资信号未披露 (40K-70K/月)

成长发展匹配

95较高

技术栈处于AI训练最前沿(GB300 NVL72、NCCL深度调优、Volcano二次开发),成长空间巨大,明显满足发展性动机。

技术前沿前沿/新兴技术
技术栈NVL72、GB300、NCCL、Volcano、Megatron-LM、DeepSpeed、PyTorch FSDP、NVLink、RDMA
业务类型profit_center

工作生活匹配

40较低

JD未提及任何WLB信息,地点上海且无远程选项,结合互联网大厂高强度氛围,生活方式满足度较低。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

60中等

AI训练是高速增长赛道,但岗位主要面向内部基础设施,社会影响力中等,未体现明确使命感。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 后端开发工程师——兰州

    中国平安 · 兰州市
    AI 估算 · 10k-18k
  • 高级后台开发工程师-财务

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 实施中级工程师

    中国平安 · 武汉市
    AI 估算 · 10k-18k
  • app开发工程师

    中国平安 · 西宁市
    AI 估算 · 8k-15k
  • Staff Software Engineer

    默克药厂 · Bangalore, Karnataka, India
    AI 估算 · 25k-45k

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 后端开发工程师——兰州

    中国平安 · 兰州市
    AI 估算 · 10k-18k
  • 高级后台开发工程师-财务

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 实施中级工程师

    中国平安 · 武汉市
    AI 估算 · 10k-18k
  • app开发工程师

    中国平安 · 西宁市
    AI 估算 · 8k-15k
  • Staff Software Engineer

    默克药厂 · Bangalore, Karnataka, India
    AI 估算 · 25k-45k