Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
高性能网络工程师
立即应聘

高性能网络工程师

发布于 大约 21 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
RDMA
NCCL
ECN
PFC
Rocev2
Connectx-7
Dcqcn

AI 估算 · 35k–55k

AI网络调优人才稀缺,米哈游薪资竞争力强,技术要求高。

职位详情

关于这个职位

该职位负责米哈游AI训练集群的网络性能极致调优,涉及RoCEv2/InfiniBand协议栈优化、拥塞控制配置与故障深度排障

你需要精通RDMA技术,熟悉NCCL集合通信,并能用Python/Golang编写自动化分析工具
适合具备超大规模数据中心网络运维经验的技术专家

最低要求

学历与经验:计算机科学、通信工程或相关专业本科及以上学历

具备3年以上超大规模AI数据中心网络运维经验,必须具备1年以上独立负责AI算力集群/HPC高性能网络调优实战经验
协议理解:精通RDMA技术原理,深入理解RoCEv2数据包封装结构及InfiniBand架构体系
对数据中心无损网络的流控机制有深刻理解
算力硬件生态熟练度:熟练配置和调试基于TH4、TH5,或NVIDIA Spectrum芯片的白盒/黑盒交换机
精通ConnectX-6/7/8系列网卡的性能差异
精通底层排障工具链:熟练使用相关Linux网络软件及RDMA诊断工具
编程与自动化能力:熟练掌握Python或Golang,能够独立编写分析网络性能日志和交换机日志的对比分析工具及各种阀值的调优参数

工作职责

AI训练网络极致调优:熟悉大模型分布式训练的通信模式

全面负责基于RoCEv2或InfiniBand (IB) 协议栈的端到端网络性能调优,最大化提升GPU集群的有效通信带宽与训练时的网络吞吐量
拥塞控制与无损网络管理:负责交换机与智能网卡的拥塞控制算法(如DCQCN)调优
精细化配置PFC、ECN等ROCE配置,减少网络突发导致的丢包与长尾延迟
复杂训练故障深度排障:快速定位并解决AI训练中遇到的疑难杂症
包括但不限于:NCCL集合通信超时、训练性能突然下降、网卡/PCIe降速、PFC风暴与死锁等

优先资格

深入理解NCCL底层工作原理,了解集合通信拓扑算法

具备万卡级以上大模型(LLM)算力集群真实交付、运维与故障排查经验者优先

AI 洞察

优缺点分析

  • 接触前沿AI网络技术,如RoCEv2、InfiniBand和NCCL,技术积累深厚
  • 米哈游平台资源丰富,项目规模大,能参与万卡级集群调优
  • 薪资水平高,职业前景广阔,AI基础设施需求持续增长
  • 技术难度高,需要同时理解网络协议、硬件和分布式训练算法
  • 故障排查压力大,训练中断可能直接影响业务进度
  • 需持续学习新兴技术,保持对硬件和协议更新的敏感度
  • 适合对高性能网络有浓厚兴趣、擅长复杂问题排查、并愿意在技术深度上持续钻研的工程师

角色解读

  • 向AI基础设施架构师或网络架构师方向发展,主导更大规模集群的网络设计
  • 深入底层硬件与协议,成为RDMA/InfiniBand领域的顶级专家
  • 横向扩展至存储网络或数据中心整体架构,提升综合技术影响力
  • 负责AI训练网络的端到端性能优化,包括RDMA协议栈调优、拥塞控制算法配置和网络吞吐量提升
  • 管理和调优基于RoCEv2或InfiniBand的无损网络,减少丢包和长尾延迟
  • 快速定位并解决复杂训练故障,如NCCL超时、性能下降和PFC风暴
  • 编写自动化工具分析网络日志,持续优化网络参数和阀值
  • 精通RDMA技术原理,熟悉RoCEv2和InfiniBand架构
  • 熟练配置和调试高端交换机(如TH4/5)和网卡(ConnectX系列)
  • 掌握Linux网络诊断工具和RDMA调试手段
  • 具备Python或Golang编程能力,能独立开发分析工具

申请策略

  • 面试前了解米哈游的AI业务方向(如游戏AI或大模型),准备相关场景问题
  • 强调自己解决疑难杂症的案例,展现系统化思维和抗压能力
  • 突出超大规模AI集群网络调优的项目经验,明确说明团队规模和具体成果
  • 详细列出RDMA相关技能,如RoCEv2配置、DCQCN调优、NCCL故障案例
  • 展示编程能力,附上自动化分析工具的GitHub链接或项目描述
  • 深入学习NCCL底层通信原理和集合算法,理解拓扑对性能的影响
  • 补充InfiniBand架构知识,尤其是IBTA规范与RoCEv2的差异

面试指南

  • 先理解问题核心,分步骤阐述:现象描述 -> 可能原因 -> 排查工具 -> 解决方案 -> 验证效果
  • 结合具体项目实例,展示实际经验,避免空谈理论
  • 强调数据驱动和自动化,体现工程化思维
  • 解释RoCEv2的拥塞控制机制,如何调优DCQCN参数?
  • 描述一次你处理NCCL超时故障的完整排查过程
  • 如何设计一个万卡集群的无损网络?PFC风暴如何预防?
  • 比较RoCEv2和InfiniBand在AI训练场景下的优缺点
  • 编写一个Python脚本分析网络延迟日志,思路是什么?

匹配度报告

74
综合匹配度

前沿AI网络技术岗,高薪高挑战,工作强度较大。

适合人群
适合追求技术深度和薪资成长、能接受高强度工作的工程师。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值80

薪资福利匹配

85较高

该职位薪资水平高,但JD未披露具体福利和薪资,给了求职者较大的谈判空间。

薪资信号未披露 (35K-55K/月)

成长发展匹配

90较高

技术栈处于AI基础设施最前沿,长期接触大规模分布式训练和RDMA协议,成长空间巨大。

技术前沿前沿/新兴技术
技术栈RDMA、RoCEv2、InfiniBand、DCQCN、NCCL、Python、Golang
业务类型ambiguous

工作生活匹配

40较低

现场办公,JD未提及WLB,AI训练网络维护通常需要快速响应,可能加班较多。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

80较高

AI训练基础设施是高速增长赛道,但岗位偏技术实现,社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 办公运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 运维保障岗

    中国平安 · 上海市
    AI 估算 · 20k-35k
  • Assistant IT Manager

    怡和洋行 · Hong Kong
    AI 估算 · 27k-45k
  • 总部应用运维岗(内推)

    中国平安 · 上海市
    AI 估算 · 20k-35k
  • 数据库管理工程师

    中国平安 · 成都市
    AI 估算 · 18k-25k

米哈游 的其他在招职位

  • 可观测性SRE

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • IDC驻场运维工程师(甘肃庆阳)

    米哈游 · 庆阳市
    AI 估算 · 10k-15k
  • 网络自动化运维开发

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • IDC驻场运维工程师(临港)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • IP衍生品项目运营

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 办公运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 运维保障岗

    中国平安 · 上海市
    AI 估算 · 20k-35k
  • Assistant IT Manager

    怡和洋行 · Hong Kong
    AI 估算 · 27k-45k
  • 总部应用运维岗(内推)

    中国平安 · 上海市
    AI 估算 · 20k-35k
  • 数据库管理工程师

    中国平安 · 成都市
    AI 估算 · 18k-25k