Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
AI Infra 系统工程师 - Varsapura
立即应聘

AI Infra 系统工程师 - Varsapura

发布于 大约 12 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
分布式系统
PyTorch
GPU集群
Megatron-LM
DeepSpeed
vLLM

AI 估算 · 35k–60k

AI Infra 高级工程师,上海大厂,技能稀缺,月薪区间合理

职位详情

关于这个职位

该职位负责米哈游大模型训练与推理基础设施的设计与优化,涵盖分布式训练、在线推理服务、平台化建设及底层系统优化

你将参与支撑游戏AI场景(如智能NPC、AI叙事)的核心系统研发,与算法、产品团队紧密协作
适合具备分布式系统或AI Infra经验、追求技术深度的工程师

最低要求

)本科及以上学历,计算机科学、软件工程、人工智能、分布式系统或相关专业

)3 年以上基础设施、后端平台、分布式系统或 AI Infra 相关研发经验,有大规模训练平台、在线推理服务或高性能系统建设经验
)熟悉 Python、C++、Golang、Java 中的一种或多种,具备扎实的工程实现能力和良好的代码质量意识
)熟悉分布式系统基本原理,理解调度、存储、网络、容错、服务治理等关键问题,具备复杂系统设计、调试与优化能力
)熟悉主流深度学习训练/推理生态及相关工具链,如 PyTorch、DeepSpeed、Megatron-LM、vLLM、SGLang、Triton、Ray 等,有实际使用或优化经验
)了解大模型训练与推理中的核心技术问题,包括并行策略、混合精度、Checkpoint、KV Cache、Continuous Batching、量化、推理调度等
)具备良好的问题分析能力与跨团队协作能力,能够推动算法、平台、产品、运维等多方协同完成复杂系统落地

工作职责

)训练与推理基础设施建设:负责公司大模型相关训练与推理基础设施的设计、开发与优化,支撑游戏内容生成、角色扮演、智能 NPC、AI 叙事、AI 玩法等业务场景下的模型研发与线上服务

)分布式训练系统研发:参与大模型训练平台与训练框架建设,支持预训练、后训练、微调等任务的高效运行,持续优化分布式训练效率、资源利用率、稳定性和成本,覆盖数据并行、张量并行、流水并行、MoE 等能力
)在线推理服务优化:负责 LLM / AIGC 在线推理服务平台的架构设计与性能优化,提升推理链路在吞吐、时延、扩展性和稳定性上的表现,支持动态批处理、KV Cache 管理、量化推理、多模型部署与流量调度
)平台化能力建设:建设面向模型研发与生产部署的一体化平台能力,包括任务提交、资源调度、实验管理、模型发布、版本管理、可观测性、自动化评测、灰度发布和故障恢复等
)底层系统优化:围绕 GPU 集群、网络、存储、容器与调度系统开展底层优化工作,定位训练或推理中的性能瓶颈,持续提升计算效率、通信效率、数据读写效率和整体系统可靠性
)稳定性与可观测性建设:建设训练与推理全链路的监控、日志、Tracing、告警与诊断体系,提升复杂 AI 系统的可观测性与问题定位效率,保障核心服务高可用与高可靠运行
)新技术研究与落地:持续跟踪训练与推理基础设施方向的前沿技术,包括分布式训练优化、推理加速、长上下文支持、MoE 系统、量化、Speculative Decoding、Serving 框架等,并结合业务需求进行验证与落地

优先资格

)有大模型训练平台、在线推理平台、AIGC 服务平台或 GPU 集群相关项目经验

)熟悉 Megatron、DeepSpeed、FSDP、MoE、FlashAttention、PagedAttention、Speculative Decoding、量化推理等技术
)有 CUDA Kernel、Triton Kernel、算子开发、性能 Profiling 与优化经验
)熟悉 Kubernetes、Docker、Terraform、Prometheus、Grafana、ELK、Jaeger 等云原生与可观测性工具
)有 RDMA、NCCL、InfiniBand、高性能存储、分布式文件系统或大规模数据 pipeline 优化经验
)有 LLM Serving、流量调度、灰度发布、SLA/SLO 设计与线上稳定性建设经验
)有游戏行业、AIGC 产品或 AI Native 应用相关经验,理解业务对训练与推理基础设施的性能、稳定性和成本要求

AI 洞察

优缺点分析

优点

  • 接触前沿的大模型训练与推理技术,技术成长快
  • 米哈游作为头部游戏公司,AI 投入大,项目资源充足
  • 岗位涉及全栈系统优化,技能积累全面
  • 技术复杂度高,需要不断学习新技术(如 MoE、FlashAttention)
  • 工作强度可能较大,尤其在大模型训练和线上服务稳定性保障方面
  • 跨团队协作频繁,需要良好的沟通能力

缺点 / 挑战

  • 适合对 AI 基础设施有热情、喜欢解决高性能计算挑战、渴望在技术前沿深耕的工程师

角色解读

  • 技术深度:从 AI Infra 工程师向分布式系统架构师或 AI 平台架构师发展
  • 业务广度:深入理解游戏 AI 业务,可转型为 AI 产品技术负责人
  • 管理方向:带领团队负责 AI 基础设施的规划与建设
  • 设计并优化大模型训练与推理基础设施,支撑游戏 AI 场景
  • 研发分布式训练系统,提升训练效率与稳定性
  • 优化在线推理服务,降低时延、提高吞吐
  • 建设平台化工具链,提升模型研发与部署效率
  • 扎实的分布式系统知识,熟悉调度、存储、网络等
  • 精通 Python/C++/Golang 之一,具备高性能系统开发能力
  • 熟悉主流深度学习框架及分布式训练工具(PyTorch、DeepSpeed 等)
  • 了解大模型训练推理核心优化技术(并行策略、KV Cache、量化等)

申请策略

  • 了解米哈游的游戏 AI 产品方向(如《原神》中的智能 NPC),在面试中展示业务理解
  • 准备一个端到端的训练或推理优化案例,体现问题分析与解决能力
  • 突出分布式系统或 AI 平台相关项目经验,尤其是大规模 GPU 集群
  • 详细描述使用 DeepSpeed、Megatron 等框架的优化案例
  • 强调性能调优(Profiling、CUDA Kernel)和稳定性建设经验
  • 补充学习 vLLM、FlashAttention、PagedAttention 等最新推理优化技术
  • 加强 Kubernetes、Prometheus 等云原生与可观测性工具的使用

面试指南

  • STAR 法则:描述情境、任务、行动、结果,突出技术决策和量化收益
  • 问题分析框架:先分析瓶颈(计算、通信、IO),再提出针对性优化方案,最后验证效果
  • 设计考量框架:从功能、性能、扩展性、成本、可维护性等多角度回答系统设计问题
  • 请介绍一个你参与的大模型训练平台项目,你负责哪些模块?如何优化训练效率?
  • 如何设计一个高吞吐低时延的 LLM 在线推理系统?
  • 分布式训练中常用的并行策略有哪些?它们分别解决什么问题?
  • 你有过 GPU 集群性能调优的经验吗?请举例说明
  • 如何保证线上推理服务的稳定性?监控和告警体系如何搭建?

匹配度报告

65
综合匹配度

大厂AI基础设施前沿岗,技术成长极高,但工作强度大,WLB一般。

适合人群
适合极度追求技术成长、能接受高强度工作的工程师,不太适合追求工作生活平衡的人。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展95
工作生活40
使命价值60

薪资福利匹配

65中等

JD未明确薪资和福利,但米哈游作为大厂通常提供有竞争力的薪酬,不过该岗位对薪资的明确性不足,补偿性动机满足程度一般。

薪资信号未披露(AI估算:35K-60K/月)

成长发展匹配

95较高

岗位涉及大模型训练推理前沿技术,成长空间极大,技能积累丰富,发展性动机满足程度很高。

技术前沿前沿/新兴技术
技术栈分布式训练、推理优化、GPU集群、PyTorch、DeepSpeed、Megatron-LM、vLLM
业务类型cost_center

工作生活匹配

40较低

JD未提及远程或弹性工作,且大厂AI岗位通常工作强度较高,生活化动机满足程度较低。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

60中等

游戏AI基础设施对社会影响力有限,但公司业务创新性强,意义感动机满足程度中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • AI 模型评测专家 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 中间件研发工程师-【Serverless】

    快手 · 杭州市
    AI 估算 · 35k-55k
  • 测试

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 拔尖计划-算力专家

    中国移动 · 上海市
    AI 估算 · 40k-70k
  • 数据开发工程师(数据仓库工程师)

    小红书 · 上海市
    AI 估算 · 25k-40k
  • 音视频策略开发工程师/架构师

    小红书 · 北京市
    AI 估算 · 30k-50k

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • AI 模型评测专家 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 中间件研发工程师-【Serverless】

    快手 · 杭州市
    AI 估算 · 35k-55k
  • 测试

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 拔尖计划-算力专家

    中国移动 · 上海市
    AI 估算 · 40k-70k
  • 数据开发工程师(数据仓库工程师)

    小红书 · 上海市
    AI 估算 · 25k-40k
  • 音视频策略开发工程师/架构师

    小红书 · 北京市
    AI 估算 · 30k-50k