米哈游的大模型训练平台研发工程师薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

大模型训练平台研发工程师的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及高级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：14 天前

该职位是米哈游的大模型训练平台研发工程师，主要负责设计和开发支撑千卡GPU集群的大规模训练作业调度系统

你需要深度优化训练资源利用率与网络通信性能，并构建训练任务的可观测体系，是一个技术挑战性极高的基础设施研发岗位

主导基于 Kubernetes 的大规模训练作业调度系统设计，支持千卡 GPU 集群的弹性伸缩、拓扑感知、容错恢复

深度优化训练资源利用率：实现 Gang Scheduling、Bin Packing、抢占式调度、Spot 实例混部

构建高性能训练网络栈：优化 RDMA/RoCE v2 配置，调优 NCCL 通信参数，解决 AllReduce 瓶颈

集成并扩展主流训练框架（DeepSpeed, Megatron-LM, FSDP, JAX）与通信库（NCCL, Gloo）

设计训练任务可观测体系：监控 GPU 利用率、通信带宽、显存碎片、Loss 异常等关键指标

探索新型硬件协同优化：NVIDIA NIC（如 ConnectX-7）、GPU Direct RDMA（GDR）、NVLink 拓扑感知调度

5 年以上 Kubernetes 深度使用或二次开发经验，熟悉 Scheduler Framework、CRD、Operator

有大规模 GPU 集群（≥100 卡）调度系统实战经验，熟悉 Volcano / Kueue / YuniKorn 等批处理调度器

了解分布式训练通信原理，有 NCCL 调优、RDMA 故障排查、AllReduce 性能分析经验优先

参与过企业级机器学习平台（如 Kubeflow, Metaflow, SageMaker, PAI）核心模块开发

熟悉主流训练框架：DeepSpeed（ZeRO, Offload）、Megatron-LM（Tensor/Pipeline Parallel）、PyTorch FSDP

了解高性能网络硬件：NVIDIA ConnectX 系列 NIC、InfiniBand vs RoCE、GPUDirect 技术

有 NCCL 调优、RDMA 故障排查、AllReduce 性能分析经验优先

大模型训练平台研发工程师

🤖 AI 估测：¥45K-80K

发布时间：14 天前