米哈游的推理平台工程师(资源调度方向)薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

推理平台工程师(资源调度方向)的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

米哈游的推理平台工程师(资源调度方向)有什么任职要求？

该职位要求本科学历及中级经验工作经验。

米哈游

推理平台工程师(资源调度方向)

立即应聘

推理平台工程师(资源调度方向)

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

软件工程

GPU

LLM

可观测性

资源调度

云原生

推理平台

AI 估算 · 30k–60k

米哈游是知名游戏公司，AI推理平台属于前沿高薪岗位，技能难度大，市场竞争力强。

职位详情

关于这个职位

该职位负责大模型推理平台的核心设计与建设，聚焦资源调度、弹性伸缩、多模型多租户管理等方向，需要深入掌握Kubernetes生态和推理引擎，适合有云原生和AI基础设施经验的工程师

加入米哈游，你将参与高并发、大规模推理服务的稳定性与效率优化，推动前沿技术落地

最低要求

本科及以上学历，计算机、软件工程、人工智能、分布式系统、云计算等相关专业优先

熟练掌握 Go / Python / Rust 中至少一种语言，具备良好的工程实现、系统设计和问题排查能力

熟悉 Kubernetes / Docker / Helm 等云原生技术，理解 Deployment、StatefulSet、Service、Ingress、HPA、CRD、Operator 等核心机制

具备 Kubernetes Operator / Controller 开发经验，熟悉 controller-runtime、client-go、Informer、Reconcile 等机制

熟悉 Kubernetes 调度体系，理解亲和性、污点容忍、拓扑分布、优先级、抢占、资源配额等机制

熟悉 LWS / RBG 等面向大模型推理的多 Pod 协同工作负载项目，理解 Leader / Worker 架构、Group 化管理、滚动升级、故障恢复和弹性扩缩容等机制

熟悉大模型推理服务的核心特性，包括 KV Cache、PagedAttention、Continuous Batching、Prefix Cache、Speculative Decoding、Chunked Prefill、PD 分离、TP / PP / EP 等

熟悉至少一种主流推理引擎，如 vLLM、SGLang、TensorRT-LLM、TGI、LMDeploy 等，了解其部署方式、关键参数、资源需求和性能瓶颈

具备大规模模型服务部署和调度经验，理解多模型、多副本、多租户、高并发场景下的容量评估、资源隔离、弹性伸缩和稳定性治理

熟悉 GPU / NPU 等异构硬件资源管理，了解 NVIDIA GPU、MIG、NVLink、RDMA、RoCE、拓扑亲和性、显存管理等机制

熟悉 Prometheus / Grafana / OpenTelemetry / Loki / ELK 等可观测体系，能够定位推理服务性能和稳定性问题

具备良好的系统抽象能力、问题分析能力和跨团队沟通能力，能够与算法、模型、业务、SRE、基础设施团队协作推进平台能力落地

工作职责

负责大模型推理平台的设计与建设，支撑多模型、多租户、多业务场景下的推理服务部署、资源调度、弹性伸缩、灰度发布、故障自愈和稳定性治理

负责推理工作负载的平台化抽象与工程落地，建设面向分布式推理、多副本推理和多角色协同服务的生命周期管理能力，提升推理服务的部署效率、运维效率和稳定性

负责异构算力资源管理、多集群调度和服务性能优化能力建设，持续提升大规模推理场景下的资源利用率、模型加载效率、服务启动速度、可观测能力和整体交付效率

优先资格

有大规模 LLM 推理平台、MaaS 平台、模型服务平台或 AI Infra 平台建设经验

有基于 LWS / RBG 部署大模型推理服务、分布式推理服务、PD 分离服务或多副本推理服务的实际经验

熟悉 llm-d、AIBrix、Ray Serve、KServe、Knative、Volcano、Kueue 等 AI / 云原生调度与服务化项目

熟悉 Fluid、Alluxio、JuiceFS、Nydus、Dragonfly 等模型缓存、模型分发、镜像加速或冷启动优化方案

熟悉 KEDA、Karmada、HPA、VPA、Cluster Autoscaler、Karpenter 等弹性伸缩和多集群调度组件，并有生产落地经验

有跨集群、跨地域、异构算力池统一调度经验，能够处理不同 GPU 型号、显存规格、网络拓扑、驱动版本、CUDA 版本带来的复杂度

有长上下文推理、高并发推理、多模型混部、热点模型治理、Prefix Cache 感知路由、PD 分离部署等实际优化经验

熟悉 vLLM / SGLang / TensorRT-LLM 等推理引擎源码或核心调度机制，有参数调优、性能分析或二次开发经验

有 GPU 集群成本优化经验，包括资源利用率提升、碎片治理、混部调度、弹性缩容和闲时资源利用等

AI 洞察

优缺点分析

优点

米哈游资金充足，业务场景真实且规模大，能积累高并发实践经验
与算法、模型团队紧密协作，技术视野开阔
技术深度要求极高，需要同时掌握分布式系统、云原生和高性能计算
大模型推理领域发展迅速，需持续学习跟进新技术
适合具备扎实云原生基础、对 AI 基础设施充满热情、乐于攻克复杂系统难题的资深工程师

缺点 / 挑战

身处大模型前沿赛道，技术栈极具挑战性和含金量
业务对服务稳定性和资源效率要求严苛，故障处理压力较大

角色解读

从推理平台工程师发展为 AI Infra 架构师，主导大规模分布式系统设计
横向扩展至算法模型优化方向，深入理解模型部署与硬件协同
可晋升为技术负责人或团队主管，带领 SRE 或基础设施团队
设计和建设大模型推理平台，负责多模型、多租户场景下的服务部署和资源调度
实现推理工作负载的平台化抽象，管理分布式推理、多副本推理的完整生命周期
优化异构算力资源管理、多集群调度和服务性能，提升资源利用率和交付效率
精通 Go/Python/Rust 之一，具备系统设计和问题排查能力
深入掌握 Kubernetes 生态，包括 Operator、调度、网络、存储等核心机制
熟悉大模型推理引擎（如 vLLM）和推理特性（如 PagedAttention、PD 分离）
具备可观测体系搭建经验，能定位性能瓶颈和稳定性问题

申请策略

关注米哈游在 AI 领域的布局，了解其游戏业务如何与推理平台结合
面试前准备一个完整的推理平台设计方案，包括资源调度和弹性伸缩策略
突出 Kubernetes Operator/Controller 开发经验，最好有开源项目贡献
列举大规模推理服务部署和调优的实际案例，包括性能指标提升
展示对推理引擎（vLLM、SGLang 等）的源码理解或二次开发经历
强调跨团队协作和系统抽象能力的落地成果
补充大模型推理特性（如 PD 分离、Prefix Cache）的原理和实践
深入学习 Kubernetes 调度器和自定义调度器开发

面试指南

对于设计类问题，先明确约束和需求，再分层阐述架构，强调关键点和 trade-off
对于技术细节问题，结合源码和实际场景，说明原理和最佳实践
如何设计一个支持多模型、多租户的推理平台资源调度系统？
Kubernetes Operator 的开发流程和核心机制是什么？
大模型推理中 PD 分离架构的原理和优势？
如何定位和优化推理服务的性能瓶颈？
描述一次大规模集群资源利用率优化的经历
复习 Kubernetes 调度、自定义资源的开发文档，并写一个小型 Operator 练手

职位点评

综合评分

技术前沿、薪资优厚，但工作地点固定且可能加班。

更适合这类人

最适合追求技术精进、希望站上 AI 基础设施浪潮的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活40

使命价值70

薪资福利

85较高

米哈游作为大型盈利企业，薪资福利优厚，但 JD 未明确提及具体薪酬和福利细节。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

95较高

技术要求极高且覆盖大模型、云原生前沿，成长空间巨大，JD 明确要求掌握大量前沿技术。

技术前沿前沿/新兴技术

技术栈Kubernetes、LLM、vLLM、SGLang、TensorRT-LLM、GPU、RDMA、Prometheus

业务类型ambiguous

工作生活

40较低

仅现场办公，未提及弹性工作制或远程，工作强度可能较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

行业处于高速增长期，但职位本质是基础设施支撑，社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

米哈游

推理平台工程师(资源调度方向)

立即应聘

推理平台工程师(资源调度方向)

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

软件工程

GPU

LLM

可观测性

资源调度

云原生

推理平台

AI 估算 · 30k–60k

米哈游是知名游戏公司，AI推理平台属于前沿高薪岗位，技能难度大，市场竞争力强。

职位详情

关于这个职位

加入米哈游，你将参与高并发、大规模推理服务的稳定性与效率优化，推动前沿技术落地

最低要求

本科及以上学历，计算机、软件工程、人工智能、分布式系统、云计算等相关专业优先

熟练掌握 Go / Python / Rust 中至少一种语言，具备良好的工程实现、系统设计和问题排查能力

熟悉 Kubernetes / Docker / Helm 等云原生技术，理解 Deployment、StatefulSet、Service、Ingress、HPA、CRD、Operator 等核心机制

具备 Kubernetes Operator / Controller 开发经验，熟悉 controller-runtime、client-go、Informer、Reconcile 等机制

熟悉 Kubernetes 调度体系，理解亲和性、污点容忍、拓扑分布、优先级、抢占、资源配额等机制

熟悉 LWS / RBG 等面向大模型推理的多 Pod 协同工作负载项目，理解 Leader / Worker 架构、Group 化管理、滚动升级、故障恢复和弹性扩缩容等机制

熟悉大模型推理服务的核心特性，包括 KV Cache、PagedAttention、Continuous Batching、Prefix Cache、Speculative Decoding、Chunked Prefill、PD 分离、TP / PP / EP 等

熟悉至少一种主流推理引擎，如 vLLM、SGLang、TensorRT-LLM、TGI、LMDeploy 等，了解其部署方式、关键参数、资源需求和性能瓶颈

具备大规模模型服务部署和调度经验，理解多模型、多副本、多租户、高并发场景下的容量评估、资源隔离、弹性伸缩和稳定性治理

熟悉 GPU / NPU 等异构硬件资源管理，了解 NVIDIA GPU、MIG、NVLink、RDMA、RoCE、拓扑亲和性、显存管理等机制

熟悉 Prometheus / Grafana / OpenTelemetry / Loki / ELK 等可观测体系，能够定位推理服务性能和稳定性问题

具备良好的系统抽象能力、问题分析能力和跨团队沟通能力，能够与算法、模型、业务、SRE、基础设施团队协作推进平台能力落地

工作职责

负责大模型推理平台的设计与建设，支撑多模型、多租户、多业务场景下的推理服务部署、资源调度、弹性伸缩、灰度发布、故障自愈和稳定性治理

优先资格

有大规模 LLM 推理平台、MaaS 平台、模型服务平台或 AI Infra 平台建设经验

有基于 LWS / RBG 部署大模型推理服务、分布式推理服务、PD 分离服务或多副本推理服务的实际经验

熟悉 llm-d、AIBrix、Ray Serve、KServe、Knative、Volcano、Kueue 等 AI / 云原生调度与服务化项目

熟悉 Fluid、Alluxio、JuiceFS、Nydus、Dragonfly 等模型缓存、模型分发、镜像加速或冷启动优化方案

熟悉 KEDA、Karmada、HPA、VPA、Cluster Autoscaler、Karpenter 等弹性伸缩和多集群调度组件，并有生产落地经验

有跨集群、跨地域、异构算力池统一调度经验，能够处理不同 GPU 型号、显存规格、网络拓扑、驱动版本、CUDA 版本带来的复杂度

有长上下文推理、高并发推理、多模型混部、热点模型治理、Prefix Cache 感知路由、PD 分离部署等实际优化经验

熟悉 vLLM / SGLang / TensorRT-LLM 等推理引擎源码或核心调度机制，有参数调优、性能分析或二次开发经验

有 GPU 集群成本优化经验，包括资源利用率提升、碎片治理、混部调度、弹性缩容和闲时资源利用等

AI 洞察

优缺点分析

优点

米哈游资金充足，业务场景真实且规模大，能积累高并发实践经验
与算法、模型团队紧密协作，技术视野开阔
技术深度要求极高，需要同时掌握分布式系统、云原生和高性能计算
大模型推理领域发展迅速，需持续学习跟进新技术
适合具备扎实云原生基础、对 AI 基础设施充满热情、乐于攻克复杂系统难题的资深工程师

缺点 / 挑战

身处大模型前沿赛道，技术栈极具挑战性和含金量
业务对服务稳定性和资源效率要求严苛，故障处理压力较大

角色解读

从推理平台工程师发展为 AI Infra 架构师，主导大规模分布式系统设计
横向扩展至算法模型优化方向，深入理解模型部署与硬件协同
可晋升为技术负责人或团队主管，带领 SRE 或基础设施团队
设计和建设大模型推理平台，负责多模型、多租户场景下的服务部署和资源调度
实现推理工作负载的平台化抽象，管理分布式推理、多副本推理的完整生命周期
优化异构算力资源管理、多集群调度和服务性能，提升资源利用率和交付效率
精通 Go/Python/Rust 之一，具备系统设计和问题排查能力
深入掌握 Kubernetes 生态，包括 Operator、调度、网络、存储等核心机制
熟悉大模型推理引擎（如 vLLM）和推理特性（如 PagedAttention、PD 分离）
具备可观测体系搭建经验，能定位性能瓶颈和稳定性问题

申请策略

关注米哈游在 AI 领域的布局，了解其游戏业务如何与推理平台结合
面试前准备一个完整的推理平台设计方案，包括资源调度和弹性伸缩策略
突出 Kubernetes Operator/Controller 开发经验，最好有开源项目贡献
列举大规模推理服务部署和调优的实际案例，包括性能指标提升
展示对推理引擎（vLLM、SGLang 等）的源码理解或二次开发经历
强调跨团队协作和系统抽象能力的落地成果
补充大模型推理特性（如 PD 分离、Prefix Cache）的原理和实践
深入学习 Kubernetes 调度器和自定义调度器开发

面试指南

对于设计类问题，先明确约束和需求，再分层阐述架构，强调关键点和 trade-off
对于技术细节问题，结合源码和实际场景，说明原理和最佳实践
如何设计一个支持多模型、多租户的推理平台资源调度系统？
Kubernetes Operator 的开发流程和核心机制是什么？
大模型推理中 PD 分离架构的原理和优势？
如何定位和优化推理服务的性能瓶颈？
描述一次大规模集群资源利用率优化的经历
复习 Kubernetes 调度、自定义资源的开发文档，并写一个小型 Operator 练手

职位点评

综合评分

技术前沿、薪资优厚，但工作地点固定且可能加班。

更适合这类人

最适合追求技术精进、希望站上 AI 基础设施浪潮的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活40

使命价值70

薪资福利

85较高

米哈游作为大型盈利企业，薪资福利优厚，但 JD 未明确提及具体薪酬和福利细节。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

95较高

技术要求极高且覆盖大模型、云原生前沿，成长空间巨大，JD 明确要求掌握大量前沿技术。

技术前沿前沿/新兴技术

技术栈Kubernetes、LLM、vLLM、SGLang、TensorRT-LLM、GPU、RDMA、Prometheus

业务类型ambiguous

工作生活

40较低

仅现场办公，未提及弹性工作制或远程，工作强度可能较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

行业处于高速增长期，但职位本质是基础设施支撑，社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

推理平台工程师(资源调度方向)

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

推理平台工程师(资源调度方向)

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

Automation Test Engineer (QA) – Officer

后台开发工程师

Web前端开发工程师

后台开发工程师

Web前端开发实习生

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

Automation Test Engineer (QA) – Officer

后台开发工程师

Web前端开发工程师

后台开发工程师

Web前端开发实习生

米哈游的其他在招职位

米哈游的其他在招职位