Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
推理平台工程师(资源调度方向)
立即应聘

推理平台工程师(资源调度方向)

发布于 2 天前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
GPU
GO
LLM
可观测性
资源调度
云原生
推理平台

AI 估算 · 30k–60k

米哈游是知名游戏公司,AI推理平台属于前沿高薪岗位,技能难度大,市场竞争力强。

职位详情

关于这个职位

该职位负责大模型推理平台的核心设计与建设,聚焦资源调度、弹性伸缩、多模型多租户管理等方向,需要深入掌握Kubernetes生态和推理引擎,适合有云原生和AI基础设施经验的工程师

加入米哈游,你将参与高并发、大规模推理服务的稳定性与效率优化,推动前沿技术落地

最低要求

本科及以上学历,计算机、软件工程、人工智能、分布式系统、云计算等相关专业优先

熟练掌握 Go / Python / Rust 中至少一种语言,具备良好的工程实现、系统设计和问题排查能力
熟悉 Kubernetes / Docker / Helm 等云原生技术,理解 Deployment、StatefulSet、Service、Ingress、HPA、CRD、Operator 等核心机制
具备 Kubernetes Operator / Controller 开发经验,熟悉 controller-runtime、client-go、Informer、Reconcile 等机制
熟悉 Kubernetes 调度体系,理解亲和性、污点容忍、拓扑分布、优先级、抢占、资源配额等机制
熟悉 LWS / RBG 等面向大模型推理的多 Pod 协同工作负载项目,理解 Leader / Worker 架构、Group 化管理、滚动升级、故障恢复和弹性扩缩容等机制
熟悉大模型推理服务的核心特性,包括 KV Cache、PagedAttention、Continuous Batching、Prefix Cache、Speculative Decoding、Chunked Prefill、PD 分离、TP / PP / EP 等
熟悉至少一种主流推理引擎,如 vLLM、SGLang、TensorRT-LLM、TGI、LMDeploy 等,了解其部署方式、关键参数、资源需求和性能瓶颈
具备大规模模型服务部署和调度经验,理解多模型、多副本、多租户、高并发场景下的容量评估、资源隔离、弹性伸缩和稳定性治理
熟悉 GPU / NPU 等异构硬件资源管理,了解 NVIDIA GPU、MIG、NVLink、RDMA、RoCE、拓扑亲和性、显存管理等机制
熟悉 Prometheus / Grafana / OpenTelemetry / Loki / ELK 等可观测体系,能够定位推理服务性能和稳定性问题
具备良好的系统抽象能力、问题分析能力和跨团队沟通能力,能够与算法、模型、业务、SRE、基础设施团队协作推进平台能力落地

工作职责

负责大模型推理平台的设计与建设,支撑多模型、多租户、多业务场景下的推理服务部署、资源调度、弹性伸缩、灰度发布、故障自愈和稳定性治理

负责推理工作负载的平台化抽象与工程落地,建设面向分布式推理、多副本推理和多角色协同服务的生命周期管理能力,提升推理服务的部署效率、运维效率和稳定性
负责异构算力资源管理、多集群调度和服务性能优化能力建设,持续提升大规模推理场景下的资源利用率、模型加载效率、服务启动速度、可观测能力和整体交付效率

优先资格

有大规模 LLM 推理平台、MaaS 平台、模型服务平台或 AI Infra 平台建设经验

有基于 LWS / RBG 部署大模型推理服务、分布式推理服务、PD 分离服务或多副本推理服务的实际经验
熟悉 llm-d、AIBrix、Ray Serve、KServe、Knative、Volcano、Kueue 等 AI / 云原生调度与服务化项目
熟悉 Fluid、Alluxio、JuiceFS、Nydus、Dragonfly 等模型缓存、模型分发、镜像加速或冷启动优化方案
熟悉 KEDA、Karmada、HPA、VPA、Cluster Autoscaler、Karpenter 等弹性伸缩和多集群调度组件,并有生产落地经验
有跨集群、跨地域、异构算力池统一调度经验,能够处理不同 GPU 型号、显存规格、网络拓扑、驱动版本、CUDA 版本带来的复杂度
有长上下文推理、高并发推理、多模型混部、热点模型治理、Prefix Cache 感知路由、PD 分离部署等实际优化经验
熟悉 vLLM / SGLang / TensorRT-LLM 等推理引擎源码或核心调度机制,有参数调优、性能分析或二次开发经验
有 GPU 集群成本优化经验,包括资源利用率提升、碎片治理、混部调度、弹性缩容和闲时资源利用等

AI 洞察

优缺点分析

优点

  • 米哈游资金充足,业务场景真实且规模大,能积累高并发实践经验
  • 与算法、模型团队紧密协作,技术视野开阔
  • 技术深度要求极高,需要同时掌握分布式系统、云原生和高性能计算
  • 大模型推理领域发展迅速,需持续学习跟进新技术
  • 适合具备扎实云原生基础、对 AI 基础设施充满热情、乐于攻克复杂系统难题的资深工程师

缺点 / 挑战

  • 身处大模型前沿赛道,技术栈极具挑战性和含金量
  • 业务对服务稳定性和资源效率要求严苛,故障处理压力较大

角色解读

  • 从推理平台工程师发展为 AI Infra 架构师,主导大规模分布式系统设计
  • 横向扩展至算法模型优化方向,深入理解模型部署与硬件协同
  • 可晋升为技术负责人或团队主管,带领 SRE 或基础设施团队
  • 设计和建设大模型推理平台,负责多模型、多租户场景下的服务部署和资源调度
  • 实现推理工作负载的平台化抽象,管理分布式推理、多副本推理的完整生命周期
  • 优化异构算力资源管理、多集群调度和服务性能,提升资源利用率和交付效率
  • 精通 Go/Python/Rust 之一,具备系统设计和问题排查能力
  • 深入掌握 Kubernetes 生态,包括 Operator、调度、网络、存储等核心机制
  • 熟悉大模型推理引擎(如 vLLM)和推理特性(如 PagedAttention、PD 分离)
  • 具备可观测体系搭建经验,能定位性能瓶颈和稳定性问题

申请策略

  • 关注米哈游在 AI 领域的布局,了解其游戏业务如何与推理平台结合
  • 面试前准备一个完整的推理平台设计方案,包括资源调度和弹性伸缩策略
  • 突出 Kubernetes Operator/Controller 开发经验,最好有开源项目贡献
  • 列举大规模推理服务部署和调优的实际案例,包括性能指标提升
  • 展示对推理引擎(vLLM、SGLang 等)的源码理解或二次开发经历
  • 强调跨团队协作和系统抽象能力的落地成果
  • 补充大模型推理特性(如 PD 分离、Prefix Cache)的原理和实践
  • 深入学习 Kubernetes 调度器和自定义调度器开发

面试指南

  • 对于设计类问题,先明确约束和需求,再分层阐述架构,强调关键点和 trade-off
  • 对于技术细节问题,结合源码和实际场景,说明原理和最佳实践
  • 如何设计一个支持多模型、多租户的推理平台资源调度系统?
  • Kubernetes Operator 的开发流程和核心机制是什么?
  • 大模型推理中 PD 分离架构的原理和优势?
  • 如何定位和优化推理服务的性能瓶颈?
  • 描述一次大规模集群资源利用率优化的经历
  • 复习 Kubernetes 调度、自定义资源的开发文档,并写一个小型 Operator 练手

匹配度报告

72
综合匹配度

技术前沿、薪资优厚,但工作地点固定且可能加班。

适合人群
最适合追求技术精进、希望站上 AI 基础设施浪潮的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活40
使命价值70

薪资福利匹配

85较高

米哈游作为大型盈利企业,薪资福利优厚,但 JD 未明确提及具体薪酬和福利细节。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

95较高

技术要求极高且覆盖大模型、云原生前沿,成长空间巨大,JD 明确要求掌握大量前沿技术。

技术前沿前沿/新兴技术
技术栈Kubernetes、LLM、vLLM、SGLang、TensorRT-LLM、GPU、RDMA、Prometheus
业务类型ambiguous

工作生活匹配

40较低

仅现场办公,未提及弹性工作制或远程,工作强度可能较高。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

行业处于高速增长期,但职位本质是基础设施支撑,社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 资深内网安全专家

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 场记/项目管理(动捕拍摄方向)——第三方编制

    米哈游 · 上海市
    AI 估算 · 8k-15k
  • 强化学习算法研究员

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 内网安全专家

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • Al Infra 推理优化工程师

    米哈游 · 上海市
    AI 估算 · 35k-60k

相似职位推荐

  • 信安-后端高级开发工程师(J29230)

    58同城 · 北京市
    AI 估算 · 25k-40k
  • 高级引擎开发工程师(开放世界/SOC) 急招

    莉莉丝 · 上海市
    AI 估算 · 25k-45k
  • 测试工程师

    中国融通集团 · 上海市
    AI 估算 · 8k-15k
  • BaaS 平台研发实习生-存储&数据库部

    小红书 · 上海市
    AI 估算 · 4k-8k
  • Keeta 技术 - AI 全栈开发专家

    美团 · 北京市
    AI 估算 · 30k-50k

米哈游 的其他在招职位

  • 资深内网安全专家

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 场记/项目管理(动捕拍摄方向)——第三方编制

    米哈游 · 上海市
    AI 估算 · 8k-15k
  • 强化学习算法研究员

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 内网安全专家

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • Al Infra 推理优化工程师

    米哈游 · 上海市
    AI 估算 · 35k-60k

相似职位推荐

  • 信安-后端高级开发工程师(J29230)

    58同城 · 北京市
    AI 估算 · 25k-40k
  • 高级引擎开发工程师(开放世界/SOC) 急招

    莉莉丝 · 上海市
    AI 估算 · 25k-45k
  • 测试工程师

    中国融通集团 · 上海市
    AI 估算 · 8k-15k
  • BaaS 平台研发实习生-存储&数据库部

    小红书 · 上海市
    AI 估算 · 4k-8k
  • Keeta 技术 - AI 全栈开发专家

    美团 · 北京市
    AI 估算 · 30k-50k