miHoYo logo
米哈游
并行文件存储资深运维工程师

并行文件存储资深运维工程师

发布于 大约 21 小时前

普通员工/个人贡献者

上海市
专家级经验
全职员工
仅现场办公
本科
GO
容器技术
AI训练
云原生
Gpfs
Lustre
Ceph
Ibm Storage Scale
存储性能优化

AI 估算 · 30k–50k

资深存储运维,技能稀缺,米哈游薪酬竞争力强,参考市场高位。

职位详情

关于这个职位

该职位负责米哈游企业级大规模 GPFS 集群的架构设计、部署、运维与性能优化,同时支持 AI 场景下的模型训练和推理存储需求

适合具备 5 年以上并行文件系统经验的资深工程师,需要熟悉 GPFS、Ceph、Lustre 等技术栈,并有大型集群管理经验

最低要求

年以上GPFS(IBM Storage Scale)运维及性能优化经验,有过大型(PB级以上)集群落地或管理经验

本科及以上学历,计算机相关专业,具有存储领域相关工作经验
熟悉ceph、lustre等其他并行文件系统架构,能够定位处理存储集群的各类问题
精通一门或以上的脚本语言(如Python/Shell等),熟悉Go/C++等开发语言
熟悉Linux系统、容器技术、云原生技术,能够支持相关服务部署及排障
具有线上存储集群运维经验,具备较强的风险意识,有良好的责任心和积极主动性

工作职责

负责企业级大规模GPFS(IBM Storage Scale)集群架构设计实施,配合供应商完成集群的软硬件部署与联调

负责集群的软硬件运维及监控告警体系建设,以及GPFS集群IO性能、元数据性能分析优化
负责AI场景下,针对模型训练/推理的io性能调优及存储需求支持

AI 洞察

优缺点分析

  • 米哈游为知名游戏公司,业务增长快,存储规模大,技术挑战极具价值
  • GPFS 是企业级高端存储系统,掌握该技能在行业内稀缺,竞争力强
  • 涉及 AI 训练场景,与前沿技术结合,能积累高性能计算和 AI 基础设施经验
  • PB 级集群运维压力大,需要 7×24 小时故障响应能力,值班要求高
  • 技术栈相对专精,GPFS 社区和文档有限,解决问题依赖个人经验
  • 游戏业务有上线和活动高峰,可能需要高强度工作
  • 适合在存储领域深耕多年、追求高薪和技术深度、不介意偶发高强度运维的资深工程师

角色解读

  • 技术路径:从存储运维专家成长为存储架构师,负责整体存储方案设计和关键技术决策
  • 横向发展:可转向 AI 基础设施或云计算基础设施领域,拓展更大平台
  • 管理路径:积累经验后带领存储运维团队,晋升为技术经理或基础架构负责人
  • 设计和实施 PB 级 GPFS 集群的架构,负责从硬件选型到网络联调的落地工作
  • 构建集群的监控告警体系,日常运维并保障存储系统的稳定性和高可用
  • 针对 AI 训练和推理场景,分析并调优存储 IO 性能,解决性能瓶颈
  • 精通 GPFS(IBM Storage Scale)的架构、部署和性能调优,有超大规模集群实战经验
  • 熟悉 Ceph、Lustre 等其它并行文件系统,能快速定位和解决复杂存储问题
  • 掌握 Python/Shell 等脚本语言,具备编程能力,能自动化运维和开发工具
  • 了解 Linux 系统、容器和云原生技术,能支持相关服务的部署与排障

申请策略

  • 了解米哈游的当前游戏和 AI 方向,在面试中展现对业务场景的理解
  • 准备一个你解决过的存储故障的 Case Study,体现你的排查思路
  • 突出 GPFS 集群的实际落地案例,包括集群规模、性能指标和优化成果
  • 量化经验:如管理多少 PB 容量,支撑多少 GPU 节点,IO 延迟降低百分比
  • 强调自动化运维脚本或工具的开发经历,体现编程能力
  • 补充 Ceph 或 Lustre 的实践经验,以便在面试中展示广度
  • 复习 Linux 内核 I/O 栈、容器存储方案(如 CSI 插件),云原生知识可加分

面试指南

  • 使用 STAR 法则:描述背景、任务、行动和结果,量化指标
  • 先阐述通用的排查思路,再针对具体问题给出调试命令和解决方案
  • 请描述你设计实现的一个大型 GPFS 集群架构,包括网络、存储节点和客户端配置
  • 当 GPFS 集群出现 IO 性能下降时,你会如何排查和定位?
  • 对比 GPFS、Ceph 和 Lustre 在 AI 训练场景下的优缺点
  • 谈一次你处理过的存储集群故障,从发现到恢复的完整过程
  • 如何优化 GPFS 的元数据性能?有哪些常用参数和调优手段?
  • 复习 GPFS 官方文档中的最佳实践和常用诊断命令

匹配度报告

71
综合匹配度

高薪、前沿技术、大平台,但需现场办公且可能加班。

适合人群
适合追求高薪和技术深度的资深工程师,对 WLB 要求不高。
最强匹配
薪资福利匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展80
工作生活50
使命价值70

薪资福利匹配

85较高

薪资处于市场高位,米哈游福利丰厚,补偿性动机得到较好满足。

薪资信号未披露 (30K-50K/月)

成长发展匹配

80较高

工作涉及前沿技术(AI 存储、PB 级分布式系统),技能成长空间大,但晋升路径未明确。

技术前沿前沿/新兴技术
技术栈GPFS、IBM Storage Scale、Ceph、Lustre、Python、Shell、Go、C++、Linux、容器技术、云原生、AI训练
业务类型profit_center

工作生活匹配

50较低

地点上海需现场办公,未提及弹性工作或 WLB,推测有一定运维压力。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

公司专注游戏与虚拟世界,有一定创新价值,但社会影响力有限。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs