Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
AI 基础设施性能工程师
立即应聘

AI 基础设施性能工程师

发布于 大约 21 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
PyTorch
DPU
Linux内核
NCCL
DOCA
RoCE
分布式训练
eBPF
DeepSpeed
QoS

AI 估算 · 35k–55k

AI基础设施性能优化是稀缺方向,米哈游作为头部游戏公司薪资竞争力强,结合上海市场行情和资深岗位要求,预估中高水平。

职位详情

关于这个职位

该职位负责米哈游AI基础设施的性能优化,专注于RoCE网络、NCCL通信库、Linux内核及训练框架的深度调优

你将使用perf、eBPF、Nsight等工具进行性能诊断与基线建立,并与GPU/网卡厂商技术对接
适合有5年以上系统或网络性能优化经验、熟悉大规模分布式训练的技术专家

最低要求

计算机科学与技术、软件工程、通信工程、电子工程等计算机相关专业,本科及以上学历

年以上系统性能或网络性能优化经验
网络/系统/训练框架三大性能方向中至少一个方向具备深度研究能力
熟练使用perf、eBPF、bpftrace、Nsight Systems、Nsight Compute等性能分析工具
熟练掌握C/C++与Python至少一种为主语言
具备良好的跨团队协作能力,能够主导性能事件复盘并沉淀技术文档

工作职责

RoCE网络性能调优:PFC / ECN / QoS、网卡参数配置、DOCA工具链应用

主流训练通信库的深度调优:NCCL拓扑、QP、buffer、算法选择等
Linux内核参数调优:NUMA、cgroup、CPU affinity、IRQ、巨页、网络栈、文件系统
训练/推理任务运行时性能诊断(带宽/延迟分析、PyTorch Profiler、Nsight系列工具、慢节点定界)
性能基线建立与版本回归,覆盖通信库、训练框架、内核与驱动各层
新硬件NPI性能评估:新代GPU、网卡接入期的性能验证、问题反馈与最佳实践沉淀
与GPU、网卡厂商工程团队的技术对接、Bug上报与协同攻关
主导或深度参与重大性能事件复盘,沉淀技术文档与团队级最佳实践

优先资格

大规模分布式训练任务性能调优实战经验

DOCA或DPU相关编程经验
熟悉DeepEP、HybridEP、Megatron、DeepSpeed等通信优化技术点
具备NCCL、PyTorch等开源项目的源码阅读与调试能力
与GPU或网卡厂商工程团队有深度技术合作经历
在NCCL、PyTorch、Linux Kernel等社区有论文发表或开源贡献

AI 洞察

优缺点分析

  • 接触前沿技术栈(RoCE、DPU、NCCL调优),技能稀缺性强,市场价值高
  • 米哈游为自研游戏大厂,业务稳定,对基础设施投入大,项目含金量高
  • 有机会与GPU/网卡厂商深度合作,拓展行业人脉和视野
  • 技术深度要求极高,需同时掌握网络、系统、训练框架多层面知识,学习曲线陡峭
  • 性能调优常涉及复杂问题排查,需要极强的耐心和系统化思维能力
  • 互联网/游戏公司加班文化可能存在,压力较大
  • 适合对系统性能有极致追求、热爱底层优化、喜欢与硬件打交道的技术极客,尤其是有分布式训练经验、希望深耕AI基础设施领域的人

角色解读

  • 向AI基础设施架构师方向发展,主导数据中心级性能优化策略
  • 深入硬件协同领域(DPU、智能网卡),成为GPU/网卡厂商的技术顾问
  • 积累开源社区影响力(NCCL、PyTorch贡献),转型为技术专家或团队负责人
  • 调优RoCE网络(PFC/ECN/QoS)和网卡参数,使用DOCA工具链解决性能瓶颈
  • 深度优化NCCL通信库,调整拓扑、QP、buffer和算法,提升大规模训练效率
  • 诊断训练/推理任务的运行时性能,使用perf、eBPF、Nsight等工具定位慢节点
  • 与GPU/网卡厂商技术对接,评估新硬件性能,建立性能基线并推动最佳实践
  • 精通Linux内核调优(NUMA、cgroup、CPU亲和性、巨页等)和网络协议栈
  • 熟练使用perf、eBPF、Nsight Systems、Nsight Compute等性能分析工具
  • 掌握C/C++和Python,具备NCCL、PyTorch等开源项目源码阅读能力
  • 有大规模分布式训练性能调优实战经验,熟悉Megatron、DeepSpeed等框架

申请策略

  • 在简历中明确写出自己熟悉的硬件平台(如A100/H100 GPU、Mellanox网卡)和具体调优参数
  • 面试前了解米哈游在AI方面的业务方向(如游戏AI、渲染等),以展示兴趣
  • 突出大规模分布式训练性能调优的具体案例,如将训练速度提升x%或解决xx网络瓶颈
  • 展示对NCCL、PyTorch等开源项目的贡献或源码分析经验
  • 强调使用perf、eBPF、Nsight等工具的实际项目经历,附上性能分析报告样例
  • 补充DOCA/DPU编程经验,可通过NVIDIA官方文档和实验环境练习
  • 深入学习Linux内核网络栈和内存管理,推荐阅读《Linux内核设计与实现》

面试指南

  • 对于性能问题,采用'现象-假设-验证-优化'的闭环思路:先描述问题现象和影响范围,列出可能根因(如网络拥塞、CPU绑定不当),说明采用的工具(如perf/eBPF、NCCL debug),展示优化后的量化结果
  • 请描述一次你通过调整RoCE网络参数解决训练性能瓶颈的经历
  • 如何诊断NCCL通信缓慢的问题?请列出排查步骤和可能原因
  • 解释NUMA架构对深度学习训练的影响,以及如何优化
  • 你如何使用Nsight Systems分析PyTorch模型性能?举例说明
  • 对比PFC和ECN在RoCE网络中的优缺点
  • 复习RoCE v2协议细节、ECN/PFC工作机制,准备一个完整调优案例
  • 熟悉NCCL源码架构(如ncclTopo、NVLink拓扑),能画出训练通信链路图

匹配度报告

66
综合匹配度

米哈游AI基础设施性能专家,前沿技术栈、高成长性,但工作强度可能较大。

适合人群
最适合追求技术深度和前沿能力的开发者,若更看重WLB则需谨慎。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展92
工作生活45
使命价值60

薪资福利匹配

65中等

JD未提及薪资福利,但基于公司行业地位和岗位稀缺性,薪资应具有竞争力,但具体细节不明确。

薪资信号未披露 (35K-55K/月)

成长发展匹配

92较高

该职位涉及AI基础设施最前沿技术(RoCE、DPU、NCCL调优),技术深度高,与硬件厂商合作提供极佳成长机会,但未明确提及晋升通道。

技术前沿前沿/新兴技术
技术栈RoCE、PFC、ECN、QoS、NCCL、DPU、DOCA、Perf、eBPF、Nsight、Linux内核、PyTorch、DeepSpeed、Megatron
业务类型cost_center

工作生活匹配

45较低

工作地点上海,未提及远程或弹性办公,互联网公司通常加班,WLB信号缺失。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

60中等

AI基础设施支撑游戏和元宇宙业务,属于技术驱动领域,但社会影响力有限,使命感不强。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 45k-90k
  • 应用运维工程师

    中国平安 · 上海市
    AI 估算 · 20k-35k
  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 60k-90k
  • Network System Engineer

    大众汽车 · 合肥市
    AI 估算 · 15k-25k
  • Drive Systems Cyber Security Engineer动力总成网络安全工程师

    奔驰 · 北京市
    AI 估算 · 25k-45k

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 45k-90k
  • 应用运维工程师

    中国平安 · 上海市
    AI 估算 · 20k-35k
  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 60k-90k
  • Network System Engineer

    大众汽车 · 合肥市
    AI 估算 · 15k-25k
  • Drive Systems Cyber Security Engineer动力总成网络安全工程师

    奔驰 · 北京市
    AI 估算 · 25k-45k