Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
服务器运维工程师(GPU方向)
立即应聘

服务器运维工程师(GPU方向)

发布于 大约 21 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
IPMI
NCCL
NVLINK
Gpu运维
Dcgm
Fabric Manager

AI 估算 · 25k–40k

GPU运维稀缺技能,米哈游AI需求旺盛,薪资竞争力强,月薪25-40K,年终丰厚。

职位详情

关于这个职位

该职位负责米哈游GPU服务器的运维与调优,包括故障诊断、性能压测、固件管理及国产AI加速卡适配

你将与研发团队和厂商协作,确保大规模GPU集群稳定高效运行,是支撑AI训练的关键角色

最低要求

计算机科学与技术、电子工程、通信工程等计算机相关专业,本科及以上学历

年以上 GPU 服务器运维经验
熟悉主流 GPU 体系(NVLink / NVSwitch / Fabric Manager / SXM / HBM / DCGM)
熟悉 IPMI、Redfish、BMC 等远程管理协议
熟悉 BIOS / UEFI 配置与服务器底层硬件(PCIe、NUMA 拓扑)
熟悉 Linux 系统管理与基础性能调优
具备 Python 或 Shell 工具脚本开发能力
良好的故障定位思路与文档撰写习惯

工作职责

GPU 服务器的故障诊断、故障恢复、报修跟进与 RMA 流程对接

机器上架压测与集群初始交付性能压测(NCCL allreduce、HBM、网卡、磁盘等基线)
服务器固件与驱动批量变更(BIOS、BMC、网卡固件、GPU 驱动、Fabric Manager)的灰度发布与回滚
厂商工具链(DCGM、Nsight、Fabric Manager 工具等)调研与平台集成
异构 AI 加速卡的硬件层适配,包括 device plugin 接入、健康检测、固件管理
BMC / BIOS 参数调优
与驻场团队、GPU 及 OEM 厂商的工单对接

优先资格

大规模 数据中心GPU 服务器运维经验

国产 AI 加速卡运维经验
参与过机房布局规划建设
具有定制、改配服务器经验

AI 洞察

优缺点分析

  • 米哈游是大型游戏公司,平台资源丰富,GPU运维属于AI基础设施核心环节,技能稀缺性高
  • 接触前沿AI硬件(如NVIDIA H100、国产加速卡)和大规模集群,技术积累深厚
  • 薪资竞争力强,公司效益好,福利待遇有保障
  • 工作强度可能较大,需要7x24小时响应故障,尤其在集群维护或业务高峰期
  • 技术更新快,需持续学习新的GPU架构、工具和协议,保持技术敏感度
  • 需与多个厂商和驻场团队协调,沟通成本较高,要求较强的跨团队协作能力
  • 适合对硬件底层技术有浓厚兴趣、喜欢深入故障排查、希望在AI基础设施领域深耕的运维工程师

角色解读

  • 向GPU集群架构师或AI基础设施专家发展,深入理解大规模分布式训练硬件
  • 可转向数据中心运维管理岗位,领导运维团队
  • 积累硬件底层经验后,可向芯片厂商或云计算厂商的系统工程师方向转型
  • 负责GPU服务器的故障诊断、故障恢复及RMA流程,确保硬件问题及时解决
  • 执行机器上架压测和集群初始交付性能测试,包括NCCL allreduce、HBM、网卡等基线验证
  • 管理服务器固件与驱动的批量变更,设计灰度发布与回滚方案,保障稳定性
  • 调研厂商工具链(如DCGM、Nsight)并集成到平台,同时负责国产AI加速卡的硬件适配
  • 精通GPU体系架构,包括NVLink、NVSwitch、Fabric Manager、SXM、HBM、DCGM等
  • 熟悉远程管理协议(IPMI、Redfish、BMC)及BIOS/UEFI配置
  • 掌握Linux系统管理与性能调优,具备Python或Shell脚本开发能力
  • 良好的故障定位思路和文档撰写习惯,能够与厂商和驻场团队高效协作

申请策略

  • 了解米哈游的游戏业务和AI应用场景(如角色动画、渲染),展现对业务的理解
  • 准备1-2个详细的故障排查案例,体现系统性思维和工具使用能力
  • 突出GPU服务器运维的项目经验,尤其是大规模集群的故障处理和性能调优案例
  • 展示脚本开发能力(Python/Shell),重点描述自动化运维工具或监控系统的实现
  • 强调与厂商或驻场团队的协作经验,体现沟通和文档撰写能力
  • 如有国产AI加速卡适配或BMC/BIOS调优经验,务必详细说明
  • 深入学习NCCL通信原理和GPU集群性能调优方法
  • 熟悉至少一种国产AI加速卡(如寒武纪、昇腾)的运维和适配流程

面试指南

  • 使用STAR方法(情境、任务、行动、结果)结构化回答,突出技术深度和系统性
  • 展示故障定位的完整思路:从现象到日志、工具、硬件检查,再上升到根因分析
  • 强调工具链和自动化脚本的使用,体现工程效率意识
  • 描述一次你处理GPU服务器故障的过程,包括诊断步骤和解决策略
  • 如何设计一个GPU集群的初始交付性能压测方案?涉及哪些基线指标?
  • 批量更新服务器BIOS时,如何确保灰度发布的成功率和回滚方案?
  • 请解释BMC参数调优对GPU服务器稳定性的影响,你有哪些经验?
  • 你对国产AI加速卡(如昇腾、寒武纪)的运维有何了解?如何适配现有平台?

匹配度报告

71
综合匹配度

大厂高薪前沿技术,侧重GPU运维,WLB一般,发展空间大。

适合人群
适合发展动机强、追求技术前沿、能接受现场办公和高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活50
使命价值60

薪资福利匹配

85较高

薪资水平较高,米哈游平台福利好,但JD未明确具体薪酬福利,存在不确定性。

薪资信号未披露 (25K-40K/月)

成长发展匹配

90较高

技术栈前沿(GPU、AI基础设施),成长空间大,但JD未提及晋升通道或培训机制。

技术前沿前沿/新兴技术
技术栈GPU、NCCL、NVLink、Fabric Manager、DCGM、IPMI、Redfish、Linux、Python
业务类型cost_center

工作生活匹配

50较低

仅现场办公,工作地点上海,未提及弹性工作或WLB,需现场处理故障可能要求较高响应。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

60中等

游戏行业与AI技术结合,有一定创新价值,但社会影响力中性,无明显使命感。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 重案管控岗(半导体行业)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • Project Engineer

    通用电气-布朗-博韦里 · 厦门市
    AI 估算 · 10k-18k
  • 机械工程师

    通用电气-布朗-博韦里 · 北京市
    AI 估算 · 8k-15k
  • E Next 培训生-工程技术方向

    通用电气-布朗-博韦里 · 厦门市
    AI 估算 · 8k-12k
  • 实验室测试工程师

    通用电气-布朗-博韦里 · 北京市
    AI 估算 · 18k-28k

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 重案管控岗(半导体行业)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • Project Engineer

    通用电气-布朗-博韦里 · 厦门市
    AI 估算 · 10k-18k
  • 机械工程师

    通用电气-布朗-博韦里 · 北京市
    AI 估算 · 8k-15k
  • E Next 培训生-工程技术方向

    通用电气-布朗-博韦里 · 厦门市
    AI 估算 · 8k-12k
  • 实验室测试工程师

    通用电气-布朗-博韦里 · 北京市
    AI 估算 · 18k-28k