Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
【B-UP】GPU集群调优工程师-网络故障(校招)
立即应聘

【B-UP】GPU集群调优工程师-网络故障(校招)

发布于 大约 15 小时前

普通员工/个人贡献者

上海市
无经验要求
全职员工
仅现场办公
本科
信息技术与基础设施
RDMA
GPU集群
网络故障排查
Rocev2

AI 估算 · 18k–28k

哔哩哔哩校招GPU集群岗位,技术稀缺性强,上海薪资水平较高,参考互联网大厂应届生薪资,15薪制。

职位详情

关于这个职位

该职位面向2027届毕业生,加入哔哩哔哩GPU集群团队,专注于大规模AI训练集群的网络性能优化与故障排查

你将深入RDMA/RoCEv2无损网络,使用专业工具定位网络异常,保障大模型训练稳定运行
岗位涉及集群运维、自动化脚本开发及前沿技术跟踪,适合对高性能计算和网络技术充满热情的应届生

最低要求

计算机、网络工程、电子信息、高性能计算、人工智能等相关专业

熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力
了解计算机网络基础原理,熟悉 TCP/IP、二层 / 三层网络架构,有 RDMA、InfiniBand、RoCE 网络认知者优先
了解 GPU、CUDA 基本概念,接触过分布式计算、高性能集群、AI 训练环境者优先
具备良好的问题排查思路、逻辑分析能力,学习能力强,能接受集群 7×24 应急值守(轮班),责任心强、善于沟通协作

工作职责

工作职责:

面向高性能 GPU 大卡集群、AI 训推集群,聚焦集群全栈性能优化、网络异常检测、服务器故障定位,支撑大模型训练、分布式算力业务稳定高效运行
团队职责:
参与大规模 GPU 集群日常压测、基线梳理、运维保障,配合完成集群扩容、版本升级、环境标准化工作
基于 Prometheus、Grafana、DCGM 等搭建集群监控大盘,输出性能报表与优化方案
编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册,沉淀知识库
协同算法、平台、网络团队,联动定位集群全链路问题,保障大模型训练、分布式任务稳定运行
跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术,持续优化集群架构与效率
岗位职责:
聚焦 RoCEv2/InfiniBand RDMA 无损网络,专职网络异常排查、故障检测、网络性能优化:
RDMA 网络专项故障检测:使用 rping、RDMA 遥测、会话追踪等工具,排查 RDMA 链路断连、建连失败、QP异常、CM 通信故障等问题
RoCEv2 网络异常定位:检测并分析 PFC 暂停风暴、ECN 拥塞标记异常、微丢包、时延尖刺、带宽抖动等无损网络典型故障,完成根因定位与修复
集群链路与拓扑排查:针对 800G/400G 叶脊Spine-Leaf网络,检测交换机端口错包、CRC 错误、链路 Flapping、路由跳转异常,梳理网络路径瓶颈
多租户网络隔离排查:检查 VLAN、VXLAN 网络隔离有效性,定位跨租户流量干扰、非法横向访问等问题
RDMA 性能调优:优化 RNIC 网卡参数、网络 QoS、DSCP/PCP 优先级,提升 RDMA 传输稳定性与吞吐,优化 GPU 与存储之间 NVMe-oF 读写时延
搭建网络自动化检测工具:实现 RDMA 故障、链路异常、拥塞问题自动告警、一键排查,提升网络运维效率
工作要求:
面向2027届海内外本硕博毕业生(2026年9月-2027年8月期间毕业)
计算机、网络工程、电子信息、高性能计算、人工智能等相关专业
熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力
了解计算机网络基础原理,熟悉 TCP/IP、二层 / 三层网络架构,有 RDMA、InfiniBand、RoCE 网络认知者优先
了解 GPU、CUDA 基本概念,接触过分布式计算、高性能集群、AI 训练环境者优先
具备良好的问题排查思路、逻辑分析能力,学习能力强,能接受集群 7×24 应急值守(轮班),责任心强、善于沟通协作
加分项:熟悉 RoCE/IB RDMA 协议,了解 PFC、ECN 等无损网络机制,接触过交换机、服务器网卡运维优先

优先资格

熟悉 RoCE/IB RDMA 协议,了解 PFC、ECN 等无损网络机制,接触过交换机、服务器网卡运维优先

AI 洞察

优缺点分析

优点

  • 加入哔哩哔哩,接触大规模AI训练集群,积累稀有的大型分布式系统运维经验
  • 深度参与RDMA/RoCEv2等前沿网络技术,技能稀缺性高,市场竞争力强
  • 校招岗位,公司平台大,培训体系完善,有导师带教,职业成长路径清晰
  • 上海薪资水平优厚,加上上市公司的稳定福利(如五险一金、补充医保等)
  • 适合对高性能网络和分布式系统有浓厚兴趣、抗压能力强、乐于在高压环境中快速成长的应届生

缺点 / 挑战

  • 需要接受7×24轮班应急值守,工作强度较高,对体力和心理韧性的要求大
  • 技术栈门槛较高,需要快速掌握RDMA、PFC、ECN等复杂协议,学习曲线陡峭
  • 集群故障可能影响业务,压力较大,要求快速定位并解决问题,容错空间小

角色解读

  • 初级GPU集群网络工程师 → 高级网络性能专家,深入RDMA/InfiniBand等前沿技术,成为数据中心网络架构核心人才
  • 横向拓展至全栈GPU集群优化,涵盖计算、存储、网络,成为分布式系统专家
  • 向技术管理方向发展,领导网络运维团队或成为技术架构师,制定集群网络长远规划
  • 负责大规模GPU集群的网络性能优化与故障排查,主要关注RDMA/RoCEv2无损网络的异常检测和根因定位
  • 使用工具如rping、RDMA遥测、会话追踪等诊断网络问题,分析PFC暂停风暴、ECN异常、微丢包等典型故障
  • 参与集群日常运维,搭建监控大盘(Prometheus/Grafana/DCGM),编写自动化脚本和SOP文档
  • 协同算法、平台和网络团队,解决全链路问题,保障大模型训练和分布式任务稳定运行
  • 扎实的计算机网络基础,熟悉TCP/IP、二层/三层网络架构,理解RDMA、InfiniBand、RoCE等高速网络协议
  • 掌握Linux操作系统和Shell/Python脚本编程,具备自动化工具开发能力
  • 了解GPU、CUDA及分布式计算概念,有高性能计算或AI训练集群经验者优先
  • 良好的问题分析和逻辑推理能力,能适应7×24轮班应急值守,具备团队协作精神

申请策略

  • 在面试或简历中表达对高性能网络技术的热情,可准备一个你解决过的网络问题案例
  • 了解哔哩哔哩的业务场景(如视频AI、推荐系统),体现你对公司技术方向的理解
  • 突出网络相关项目经历,如实验室搭建过RDMA或InfiniBand集群,或参与过网络性能调优
  • 强调Linux系统使用经验和Shell/Python脚本能力,可附上GitHub自动化工具项目链接
  • 如果有GPU编程或分布式训练经验(如使用过CUDA、MPI、NCCL),务必重点展示
  • 体现问题排查和逻辑分析能力,例如撰写过故障分析报告或参与过网络竞赛
  • 系统学习RDMA协议(RoCEv2和InfiniBand),掌握PFC、ECN工作原理,可动手搭建小规模实验环境
  • 练习Linux网络诊断工具(如tcpdump、iperf、ethtool)和网络性能分析

面试指南

  • 对于技术对比类问题,先阐述基本原理(如RDMA绕过内核、零拷贝等),再结合实际应用场景说明优劣
  • 对于故障排查类问题,按照“现象→影响→可能性→排查步骤→根因→解决方案”的逻辑展开,体现结构化思考
  • 对于开放性问题,可结合自身经验或学习计划回答,表明积极态度和学习能力
  • 请解释RDMA和传统TCP/IP网络的主要区别,以及RoCEv2和InfiniBand的各自特点
  • 什么是PFC暂停风暴?如何检测和解决?
  • 描述一次你排查网络故障的过程,包括使用的工具和思路
  • 如何优化GPU集群中多节点训练时的网络性能?
  • 你对7×24轮班值守的工作模式有什么看法?

职位点评

67
综合评分

大厂校招,前沿GPU网络技术,高压轮班,成长迅猛。

更适合这类人
该职位最适合追求技术成长、愿意接受高强度工作挑战的应届毕业生。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展88
工作生活35
使命价值70

薪资福利

75中等

校招岗位薪资在上海具有竞争力,且哔哩哔哩福利较好(五险一金、补充医疗等),但具体薪资未明确,薪酬信号为未披露,综合评定中等偏上。

薪资信号未披露(AI估算:18K-28K/月)

成长发展

88较高

该岗位涉及GPU集群、RDMA、RofE等前沿技术,成长空间大,公司提供导师制,但JD未明确提晋升通道,评分较高但非满分。

技术前沿前沿/新兴技术
技术栈RDMA、RoCEv2、InfiniBand、GPU集群、PFC、ECN
业务类型cost_center

工作生活

35较低

需要7×24轮班应急值守,工作强度大,WLB较差,办公地点在上海核心区域,但无明确弹性办公或远程政策,整体得分较低。

工作模式仅现场办公
办公地点市区核心地段
加班情况明确要求弹性/高强度

使命价值

70中等

B站作为大型互联网平台,技术影响力较大,但职位属于运维支撑性质,社会意义中等,行业处于AI增长期,创新性较高。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k