Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

miHoYo logo
米哈游
k8s 运维开发工程师(AI 基础设施方向)
立即应聘

k8s 运维开发工程师(AI 基础设施方向)

发布于 大约 9 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
信息技术与基础设施
GPU
GO
CNI
CSI
Device Plugin
Mlp
多集群

AI 估算 · 30k–60k

米哈游AI基础设施方向技术要求高,结合上海市场和大厂背景,薪资竞争力强。

职位详情

关于这个职位

负责米哈游MLP平台GPU集群底座建设,主导大规模多集群K8s环境稳定性与调度效率,支撑AI模型训练与推理

适合有3年以上K8s生产经验、熟悉GPU调度和基础设施开发的工程师

最低要求

本科及以上学历,计算机/电子/通信等相关专业,3 年以上 K8s 生产环境工作经验

深入理解 K8s 核心组件(kubelet、kube-scheduler、controller-manager)和调度框架,具备 GPU 调度实战经验(NVIDIA Device Plugin、Scheduler Extender、DRA 等)
具备 CNI 或 CSI 插件开发或深度定制经验,熟悉主流实现(Calico/Cilium、CSI Driver 框架)并能进行源码级调试
有多集群管理经验,熟悉 Karmada、KubeFed、Cluster API 或类似方案中的一种以上
扎实的 Go/Python 编程能力,良好的系统设计和故障排查能力

工作职责

GPU 集群稳定性建设:主导 GPU 集群高可用架构设计,制定 SLA/SLO 目标,建立容量规划、变更管控、灰度发布和稳定性度量体系

故障响应与处理:负责 P0/P1 级故障的快速定位、根因分析和事后复盘,建立可观测性、告警和应急响应机制
多集群管理:设计多集群联邦、统一接入、资源调度和灾备方案,解决跨集群业务调度、流量分发和数据一致性问题
基础设施插件开发:基于 K8s 二次开发或定制 CNI、CSI、Device Plugin、Scheduler Extender 等核心组件,适配公司 GPU 资源池和存储/网络环境
跨团队协作:与算法、业务方紧密协作,承接模型训练/推理场景的底层需求,推动平台能力落地

优先资格

优先考虑:

有 LLM 大模型训练或推理集群运维经验,了解分布式训练通信(NCCL/RDMA/RoCE/IB)和显存/算子特性
有 Operator 开发经验,熟悉 Kubebuilder / Operator SDK
有 Kube-scheduler / GPU Scheduler 二次开发经验或上游社区贡献
熟悉 GPU 共享/隔离方案(MIG、MPS、vGPU、TimeSlicing)中的一种以上
加分项:
在 CNCF/KubeCon 或相关开源社区有贡献记录
有 Chaos Engineering、故障演练体系建设经验
有大规模(万卡级)集群的实际运维或设计经验

AI 洞察

优缺点分析

优点

  • 米哈游作为顶级游戏公司,技术栈前沿,能接触大模型训练等前沿场景
  • 职位技术深度高,涉及K8s、GPU、分布式系统等,技能积累价值大
  • 公司不差钱,薪资福利有竞争力,且业务稳定
  • 职责范围广泛,需要同时掌握K8s、GPU、网络、存储等多领域知识
  • 技术迭代快,需要持续学习前沿技术

缺点 / 挑战

  • 大规模集群运维压力大,故障响应要求高,可能面临on-call
  • 适合喜欢挑战、对云原生和AI基础设施有浓厚兴趣,且能承受一定工作压力的资深运维开发工程师

角色解读

  • 技术深耕:成为K8s/GPU基础设施领域的专家,主导大规模集群架构
  • 横向拓展:向AI平台整体架构或云原生方向延伸,参与更广泛的系统设计
  • 管理路径:从技术负责人逐步过渡到团队管理,带领基础设施团队
  • 主导MLP平台GPU集群的高可用架构设计,制定SLA/SLO目标并建立稳定性度量体系
  • 负责P0/P1级故障快速定位、根因分析,建立可观测性和应急响应机制
  • 设计多集群联邦、调度和灾备方案,解决跨集群资源调度与数据一致性问题
  • 基于K8s二次开发CNI、CSI、Device Plugin等核心组件,适配GPU资源池和网络环境
  • 深入理解K8s核心组件与调度框架,具备GPU调度实战经验
  • 精通CNI或CSI插件开发,能进行源码级调试
  • 多集群管理经验,熟悉Karmada、KubeFed等方案
  • 扎实的Go/Python编程能力和系统设计能力

申请策略

  • 了解米哈游AI业务方向(如游戏AI、大模型应用),在面试中展示对底层平台的理解
  • 准备一个自己主导的K8s稳定性或GPU调度项目的复盘,体现系统性思考
  • 突出K8s生产环境经验,特别是GPU调度和集群稳定性案例
  • 强调CNI/CSI插件开发或多集群管理项目,最好有源码级调试经历
  • 如有LLM训练集群运维或Operator开发经验,务必重点展示
  • 开源贡献或KubeCon参与记录是重要加分项
  • 补齐K8s scheduler二次开发或NVIDIA Device Plugin定制能力
  • 学习分布式训练通信协议(NCCL/RDMA)和GPU隔离方案(MIG/vGPU)

面试指南

  • STAR原则:情境-任务-行动-结果,清晰描述项目背景和你的贡献
  • 技术深度+系统性思考:不仅说做了什么,还要解释为什么这样做
  • 对比方案:展示你对不同技术选型的权衡思考
  • 请描述你设计的一个高可用K8s集群架构,如何保证GPU资源的高效调度?
  • 如何处理一个大规模集群中的P0级故障?请举例说明根因分析和恢复过程
  • CNI或CSI插件开发中遇到过哪些挑战?如何调试和优化?
  • 多集群管理时如何解决数据一致性和流量分发问题?
  • 对NVIDIA Device Plugin的理解?如何实现GPU共享或隔离?

职位点评

66
综合评分

高薪高成长、技术前沿的AI基础设施岗,但工作强度大、WLB较差。

更适合这类人
最适合注重技术成长和薪酬回报,对工作生活平衡要求不高的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展90
工作生活30
使命价值60

薪资福利

85较高

米哈游薪资在大厂中属于头部,且福利完善,补偿性动机能得到较好满足。

薪资信号未披露(AI估算:30K-60K/月)

成长发展

90较高

职位技术深度极高,涉及AI基础设施前沿,有大量学习成长机会。

技术前沿前沿/新兴技术
技术栈K8s、GPU、LLM、NCCL、CNI、CSI、多集群
业务类型profit_center

工作生活

30较低

仅现场办公,未提及WLB,大规模集群运维可能涉及on-call和加班,生活方式满足度较低。

工作模式仅现场办公
办公地点市区核心地段
加班情况JD含高强度暗示词

使命价值

60中等

AI基础设施支撑游戏和AI业务,有一定社会影响力,但主要服务于公司内部,意义感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • AI 运维工程师

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • 招聘HR实习生(美术方向)

    米哈游 · 上海市
    AI 估算 · 3k-5k
  • 国际化市场品牌(韩国)- 市场&社群方向

    米哈游 · 上海市
    AI 估算 · 20k-35k
  • Unreal游戏客户端开发(载具系统)- Varsapura

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 高级/资深硬件结构工程师

    米哈游 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 高级业务架构(财务数字化方向)

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 35k-50k
  • 高级技术架构

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 30k-45k
  • 安全工程师

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 15k-25k
  • 高级数据架构(财务数字化方向)

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 30k-50k
  • 数据治理工程师(财务数字化方向)

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 18k-30k

米哈游 的其他在招职位

  • AI 运维工程师

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • 招聘HR实习生(美术方向)

    米哈游 · 上海市
    AI 估算 · 3k-5k
  • 国际化市场品牌(韩国)- 市场&社群方向

    米哈游 · 上海市
    AI 估算 · 20k-35k
  • Unreal游戏客户端开发(载具系统)- Varsapura

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 高级/资深硬件结构工程师

    米哈游 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • 高级业务架构(财务数字化方向)

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 35k-50k
  • 高级技术架构

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 30k-45k
  • 安全工程师

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 15k-25k
  • 高级数据架构(财务数字化方向)

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 30k-50k
  • 数据治理工程师(财务数字化方向)

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 18k-30k