Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
【B-UP】GPU集群调优工程师-网络故障(实习)
立即应聘

【B-UP】GPU集群调优工程师-网络故障(实习)

发布于 大约 15 小时前

实习/见习

上海市
无经验要求
实习生
仅现场办公
学历未注明
信息技术与基础设施
分布式计算
高性能计算
CUDA
RDMA
GPU集群
AI训练
Rocev2
Dcgm
网络故障检测

AI 估算 · 4k–6k

实习岗位,上海地区,B站为上市大厂,实习薪资本科约200-250元/天,硕士约250-300元/天,按月估算约5000元。

职位详情

关于这个职位

这是一个偏向网络方向的GPU集群实习岗位,主要负责RDMA无损网络的故障排查与性能优化,参与大规模AI训练集群的运维保障,适合对高性能网络和分布式计算感兴趣的同学

最低要求

计算机、网络工程、电子信息、高性能计算、人工智能等相关专业

熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力
了解计算机网络基础原理,熟悉 TCP/IP、二层 / 三层网络架构,有 RDMA、InfiniBand、RoCE 网络认知者优先
了解 GPU、CUDA 基本概念,接触过分布式计算、高性能集群、AI 训练环境者优先
具备良好的问题排查思路、逻辑分析能力,学习能力强,能接受集群 7×24 应急值守(轮班),责任心强、善于沟通协作

工作职责

聚焦 RoCEv2/InfiniBand RDMA 无损网络,专职网络异常排查、故障检测、网络性能优化:

RDMA 网络专项故障检测:使用 rping、RDMA 遥测、会话追踪等工具,排查 RDMA 链路断连、建连失败、QP异常、CM 通信故障等问题
RoCEv2 网络异常定位:检测并分析 PFC 暂停风暴、ECN 拥塞标记异常、微丢包、时延尖刺、带宽抖动等无损网络典型故障,完成根因定位与修复
集群链路与拓扑排查:针对 800G/400G 叶脊Spine-Leaf网络,检测交换机端口错包、CRC 错误、链路 Flapping、路由跳转异常,梳理网络路径瓶颈
多租户网络隔离排查:检查 VLAN、VXLAN 网络隔离有效性,定位跨租户流量干扰、非法横向访问等问题
RDMA 性能调优:优化 RNIC 网卡参数、网络 QoS、DSCP/PCP 优先级,提升 RDMA 传输稳定性与吞吐,优化 GPU 与存储之间 NVMe-oF 读写时延
搭建网络自动化检测工具:实现 RDMA 故障、链路异常、拥塞问题自动告警、一键排查,提升网络运维效率

优先资格

熟悉 RoCE/IB RDMA 协议,了解 PFC、ECN 等无损网络机制,接触过交换机、服务器网卡运维优先

AI 洞察

优缺点分析

优点

  • 实习岗位直接接触前沿的RDMA无损网络技术,市场价值高
  • B站平台大,能参与大规模AI训练集群运维,积累实战经验
  • 团队涉及全栈优化,学习机会多,可能接触多种工具和框架
  • 该领域人才竞争相对较小,未来职业发展空间大
  • 需要轮班值守,工作强度可能较大,对体力与精力要求高
  • RDMA网络调试难度高,需要较强的学习能力和耐心
  • 实习期可能较短,需快速上手并独立处理故障
  • 适合对网络底层原理和高性能计算感兴趣,愿意钻研复杂问题,能接受不定时值班的理工科学生

缺点 / 挑战

暂无明显挑战项

角色解读

  • 实习后可转向GPU集群运维/网络工程师,深耕高性能网络领域
  • 积累RDMA和分布式训练经验,可向AI基础设施架构师发展
  • 随着大模型发展,该领域人才稀缺,未来可往系统优化或网络研发方向进阶
  • 负责GPU集群中RDMA网络的故障排查与性能优化,使用工具定位链路断开、拥塞等问题
  • 监控集群网络状态,通过Prometheus、Grafana等搭建大盘,输出性能报表
  • 参与RoCEv2/InfiniBand无损网络的调优,优化网卡参数和QoS配置
  • 编写自动化脚本和运维手册,提升故障处理效率
  • 熟悉Linux操作系统和基础命令,能编写Shell/Python脚本
  • 理解TCP/IP及二层/三层网络架构,了解RDMA、InfiniBand、RoCE协议
  • 了解GPU和CUDA基本概念,有分布式计算或AI训练环境接触经验更佳
  • 具备问题排查和逻辑分析能力,能适应轮班值守

申请策略

  • 了解B站业务和技术栈,体现对AI基础设施的兴趣
  • 在简历中突出适应轮班和高压环境的意愿
  • 突出网络相关项目经验,比如TCP/IP调优、RDMA使用经历等
  • 强调Linux和脚本技能,如Shell/Python自动化脚本
  • 如果有GPU、CUDA或AI训练环境接触经验,务必写明
  • 展示问题排查案例,体现逻辑分析和快速学习能力
  • 提前学习RDMA协议和RoCEv2原理,了解PFC、ECN等机制
  • 熟悉Prometheus、Grafana监控工具,搭建过简单的监控demo

面试指南

  • 从协议栈分层入手,先检查物理层再逐步向上
  • 结合具体工具(如rping、perftest)说明诊断步骤
  • 强调监控指标(如重传、丢包率)和可视化方法
  • 描述RDMA建连失败的可能原因及排查步骤
  • 什么是PFC风暴?如何检测和解决?
  • 你如何用Prometheus+Grafana监控网络延迟?
  • 请解释ECN如何帮助减少拥塞
  • 你在Linux下如何排查网络丢包问题?

职位点评

59
综合评分

前沿技术实习,成长性强,但工作强度大,适合追求技术积累的学生。

更适合这类人
最适合重视技术成长、愿意在压力环境下快速学习的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利50
成长发展85
工作生活30
使命价值70

薪资福利

50较低

实习薪资处于市场平均水平,但B站提供实习证明和成长机会,福利未在JD中明确提及,整体补偿性中等偏低。

薪资信号未披露(AI估算:4K-6K/月)

成长发展

85较高

该岗位注重前沿技术(RDMA、RoCEv2、GPU集群),实习期能深度参与核心系统优化,技能成长空间大。

技术前沿前沿/新兴技术
技术栈RDMA、RoCEv2、InfiniBand、GPU集群、分布式计算、AI训练、Prometheus、Grafana、DCGM
成长机会知识库、前沿技术跟踪
业务类型profit_center

工作生活

30较低

实习需轮班值守(7×24应急),工作强度大,无远程选项,WLB较差。

工作模式仅现场办公
办公地点市区核心地段
加班情况明确要求弹性/高强度

使命价值

70中等

该岗位支持AI基础设施建设,对技术创新有贡献,行业前景好,但社会影响力相对间接。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k