Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
AI集群运维
立即应聘

AI集群运维

发布于 大约 21 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
GPU
GO
AIOps
etcd
Cilium
Volcano
Calico
Apiserver

AI 估算 · 30k–50k

GPU集群运维稀缺人才,米哈游薪酬竞争力强,资深岗位薪资高

职位详情

关于这个职位

负责米哈游AI集群的Kubernetes平台搭建、调优与运维,包括核心组件管理、故障排除、安全加固及自动化工具开发

需要深厚的K8s原理理解和GPU调度经验,适合追求技术深度的资深运维工程师

最低要求

计算机科学与技术、软件工程、信息系统等计算机相关专业,本科及以上学历

年以上大规模 K8s 集群运维经验
精通 K8s 核心组件(apiserver / etcd / kubelet / scheduler / controller-manager)原理与调优方法
熟悉容器运行时(containerd / runc)与 Linux cgroup 机制
熟悉 K8s 网络方案:主流 CNI 实现(Calico / Cilium / Flannel 等)、kube-proxy、Service / Ingress / NetworkPolicy、DNS、Cilium 等核心组件原理
具备 K8s 集群网络排障能力:能够使用 tcpdump、conntrack、iptables、ip netns、ss、ethtool 等工具进行网络问题定位与抓包分析,能定位跨节点网络异常、Pod 网络不通、Service 转发异常等典型问题
熟悉至少一种 GPU 调度方案(Volcano / Kueue / KAI )
熟悉 Linux 系统管理,包括性能调优、内核参数、systemd、网络栈
具备 Shell 脚本能力,掌握 Python 或 Go 中至少一种,可独立开发运维工具
接受 7×24 二线 oncall 值班安排

工作职责

多地域AI集群的 K8s 平台搭建、调优(apiserver / etcd / scheduler / kubelet等核心组件)、版本升级、参数变更与日常巡检

自研训推平台系统的部署、发布与变更
集群节点上下线流程管理、与硬件运维协同处理故障节点
集群故障定位与恢复:包括控制面降级、apiserver 性能异常、etcd OOM、节点批量 NotReady、慢节点、网络异常等典型场景
集群与服务器安全加固(CIS 基线、kubelet 参数、network policy 落地)、堡垒机联动、运维审计
故障应急 Runbook 与 SOP 文档编写,主导或参与故障复盘

优先资格

大规模 K8s 集群运维实战经验(5000节点以上)

GPU 集群运维经验(NVIDIA Driver、DCGM、Doca、GPU Operator、Network Operator)
训推平台搭建与运维经验
有AIOPS 提效实践经验

AI 洞察

优缺点分析

  • 接触最前沿的AI基础设施技术,包括大规模K8s、GPU集群和AIOps,技术积累价值高
  • 米哈游作为头部游戏公司,平台大,资源充足,薪资福利有竞争力
  • 工作内容涉及核心AI业务,在公司内受重视,发展空间大
  • 需要7×24小时oncall值班,工作强度大,可能影响生活平衡
  • 技术栈深且复杂度高,对排障能力和学习能力要求极高
  • 大规模集群运维压力大,故障处理需要快速响应和决策
  • 适合热爱技术、追求深度、能承受较大工作压力,希望在AI基础设施领域深耕的资深运维工程师

角色解读

  • 可以向AI基础设施架构师方向发展,主导大规模训练集群的设计与优化
  • 也可以转向AI平台开发,结合K8s和AI工作流,成为平台工程师
  • 未来可晋升为运维团队技术leader或SRE经理
  • 负责大规模K8s集群的搭建、调优与日常运维,确保AI训练和推理平台的稳定运行
  • 处理集群故障,包括控制面降级、节点异常、网络问题等,并编写应急文档
  • 参与集群安全加固和运维自动化工具开发,提升运维效率
  • 精通K8s核心组件原理与调优,具备大规模集群运维经验
  • 熟悉Linux系统管理、网络排障,能使用tcpdump等工具定位问题
  • 掌握Shell、Python或Go,能独立开发运维脚本和工具
  • 了解GPU调度方案,如Volcano、Kueue等

申请策略

  • 在简历中准备一个完整的故障处理案例,展示系统性思维
  • 了解米哈游AI业务方向(游戏AI、内容生成等),展现对业务的兴趣
  • 突出大规模K8s集群运维经验,尤其是5000节点以上的案例
  • 强调GPU集群运维经验,包括NVIDIA驱动、DCGM等
  • 展示网络排障能力,如在简历中写具体故障案例和解决过程
  • 体现自动化运维能力,如用Python/Go开发的工具或脚本
  • 深入学习K8s网络方案,尤其是Cilium和NetworkPolicy
  • 补充GPU调度方案知识,如Volcano或Kueue

面试指南

  • 对于故障类问题,采用STAR法则:描述场景、任务、行动、结果,突出分析过程和关键决策
  • 对于技术原理问题,先阐述核心概念,再结合实践经验说明调优要点
  • 对于工具类问题,强调实际使用场景和效果,避免空谈理论
  • 描述一次你处理的K8s集群etcd OOM故障,你是如何定位和解决的?
  • 如何优化大规模集群的apiserver性能?
  • 请解释Cilium的工作原理以及它与Calico的主要区别
  • 在GPU集群运维中,你如何处理节点NotReady问题?
  • 你有使用过哪些运维自动化工具?请举例说明

匹配度报告

62
综合匹配度

高薪前沿技术岗,但需接受oncall和较大工作压力。

适合人群
适合看重技术成长和薪资回报,能接受高强度工作的资深运维工程师。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活30
使命价值50

薪资福利匹配

80较高

米哈游薪酬待遇属行业头部,虽未明确薪资但预计较高,且大厂福利完善。但需oncall值班,工作强度大。

薪资信号未披露 (30K-50K/月)

成长发展匹配

90较高

技术栈前沿,涉及K8s、GPU、AIOps,成长空间大。公司体量大,可接触业界顶级基础设施,但未明确提及晋升通道。

技术前沿前沿/新兴技术
技术栈K8s、etcd、GPU、Volcano、Cilium、AIOps
业务类型cost_center

工作生活匹配

30较低

明确要求7×24二线oncall,工作强度高,无远程或弹性办公说明,生活方式灵活性差。

工作模式仅现场办公
办公地点科技园/产业园
加班情况明确要求弹性/高强度

使命价值匹配

50较低

游戏行业AI基础设施对社会直接影响有限,但技术基础设施支撑公司核心AI业务,有一定意义。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 45k-90k
  • 应用运维工程师

    中国平安 · 上海市
    AI 估算 · 20k-35k
  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 60k-90k
  • Network System Engineer

    大众汽车 · 合肥市
    AI 估算 · 15k-25k
  • Drive Systems Cyber Security Engineer动力总成网络安全工程师

    奔驰 · 北京市
    AI 估算 · 25k-45k

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 45k-90k
  • 应用运维工程师

    中国平安 · 上海市
    AI 估算 · 20k-35k
  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 60k-90k
  • Network System Engineer

    大众汽车 · 合肥市
    AI 估算 · 15k-25k
  • Drive Systems Cyber Security Engineer动力总成网络安全工程师

    奔驰 · 北京市
    AI 估算 · 25k-45k