Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
【B-UP】GPU集群调优工程师-服务器故障-实习
立即应聘

【B-UP】GPU集群调优工程师-服务器故障-实习

发布于 大约 15 小时前

实习/见习

上海市
无经验要求
实习生
仅现场办公
本科
信息技术与基础设施
GPU
RDMA
Dcgm

AI 估算 · 4k–6k

实习岗位,B站为上市互联网公司,上海地区实习薪资通常4000-6000元/月,考虑技术岗位略高。

职位详情

关于这个职位

这是一个面向2027届毕业生的GPU集群调优实习岗位,主要负责大规模GPU集群的服务器硬件故障排查、操作系统问题定位以及集群监控优化

你将接触到DCGM、Prometheus、RDMA等前沿技术,在B站高性能计算团队中积累宝贵的实战经验

最低要求

计算机、网络工程、电子信息、高性能计算、人工智能等相关专业

熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力
了解计算机网络基础原理,熟悉 TCP/IP、二层 / 三层网络架构
了解 GPU、CUDA 基本概念
具备良好的问题排查思路、逻辑分析能力,学习能力强,能接受集群 7×24 应急值守(轮班),责任心强、善于沟通协作

工作职责

团队通用职责:

参与大规模 GPU 集群日常压测、基线梳理、运维保障,配合完成集群扩容、版本升级、环境标准化工作
基于 Prometheus、Grafana、DCGM 等工具搭建集群监控大盘,输出性能报表、故障分析报告与优化方案
编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册,沉淀技术知识库
协同算法、平台、网络团队,联动定位集群全链路问题,保障大模型训练、分布式任务稳定运行
跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术,持续优化集群架构与运行效率
岗位具体职责:
GPU 硬件故障检测:通过 DCGM、硬件日志定位 GPU 卡掉卡、硬件报错、温度 / 功耗异常、显存故障、MIG 切分异常等问题,配合完成硬件更换与复测
服务器硬件排查:检测主板、CPU、内存、NVMe 硬盘、电源、风扇等硬件故障,分析机柜供电、散热异常引发的节点宕机、重启问题
操作系统故障排查:分析 Linux 系统内核崩溃、OOM、会话卡死、驱动加载失败、定时任务异常等问题,修复系统配置缺陷
带外(BMC/BMS)运维与故障:通过 IPMI 工具排查带外管理链路异常、远程 KVM 失效、硬件监控数据采集失败等问题,落实 BMC 权限与安全管控
容器 / 运行时故障排查:定位 Docker、容器镜像启动异常、资源抢占、挂载失败等问题,保障 PaaS 平台节点稳定
故障闭环管理:建立服务器故障分级机制,复盘高频故障,输出预防方案,降低节点故障率

优先资格

加分项:了解服务器硬件结构、BMC/IPMI 带外管理,有服务器运维、硬件排障实习经验优先

AI 洞察

优缺点分析

优点

  • B站作为知名互联网公司,平台大,技术氛围好,实习经历含金量高
  • 直接接触大规模GPU集群和AI训练基础设施,技术成长快
  • 团队协作机会多,可拓展网络、算法等多领域知识
  • 技术栈较深,需要快速学习Linux底层、GPU、网络等知识,上手难度较大
  • 适合对高性能计算、GPU集群运维有浓厚兴趣,愿意从硬件和底层技术入手积累经验的2027届毕业生

缺点 / 挑战

  • 需参与7×24应急值守轮班,工作强度较高,对责任心和时间管理要求高
  • 硬件故障排查可能涉及繁琐的重复性工作,需要耐心和细致

角色解读

  • 实习期间积累大规模GPU集群运维经验,可向高性能计算工程师、AI基础设施工程师发展
  • 深入掌握硬件排障和集群优化技能,未来可转向SRE、数据中心运维等岗位
  • 接触前沿的分布式训练技术(RDMA、InfiniBand),为从事AI系统优化方向打下基础
  • 负责GPU服务器硬件故障检测与排查,包括GPU卡掉卡、内存故障、电源异常等,并协调硬件更换复测
  • 分析Linux操作系统问题,如内核崩溃、OOM、驱动加载失败,修复系统配置缺陷
  • 使用DCGM、Prometheus等工具搭建监控大盘,输出性能报表和故障分析报告
  • 参与集群日常压测、运维保障,编写自动化脚本和故障处理手册
  • 熟悉Linux操作系统和基础命令,掌握Shell或Python脚本编写能力
  • 了解计算机网络基础(TCP/IP、二层/三层网络),有RDMA/InfiniBand认知者优先
  • 了解GPU、CUDA基本概念,接触过分布式计算或AI训练环境更佳
  • 具备逻辑分析能力和问题排查思路,能接受7×24应急值守轮班

申请策略

  • 在简历或求职信中表达对AI基础设施的热情和长期发展意愿,体现稳定性
  • 关注B站技术博客或开源项目,面试时可展示对公司的了解和主动学习态度
  • 突出Linux系统管理和脚本编程经验,列举相关项目或课程作业
  • 如有GPU/CUDA或集群使用经历(如Kaggle、学校集群),务必详细描述
  • 强调问题排查案例:如debug过系统崩溃、网络故障等,展示逻辑分析能力
  • 提前学习Prometheus、Grafana、DCGM等监控工具的安装和使用
  • 动手搭建一个小型GPU集群或使用云GPU实例,熟悉训练任务调度和故障模拟
  • 阅读RDMA/InfiniBand基础资料,了解分布式通信原理

面试指南

  • 运用STAR原则:描述情境、任务、行动和结果,突出逻辑分析过程
  • 对于技术问题,先阐述基本原理,再结合具体场景分步骤排查
  • 对于开放性问题,展示系统性思维:从现象到可能原因,再到验证和修复
  • 请描述一次你排查Linux系统故障的经历,你是如何定位和解决的?
  • 你如何理解GPU集群中的“故障闭环管理”?请举例说明
  • RDMA和传统TCP/IP网络在AI训练场景下有什么区别?
  • 如果GPU卡温度异常,你会通过哪些步骤排查?
  • 复习Linux常用命令和系统日志查看方法(dmesg、journalctl等)

职位点评

61
综合评分

B站GPU集群实习,前沿技术栈,高强度轮班,成长极快。

更适合这类人
适合以技术成长为核心动机,愿意接受高强度轮班、追求前沿技术积累的2027届毕业生。
表现最好
成长发展
相对薄弱
工作生活
薪资福利45
成长发展90
工作生活40
使命价值70

薪资福利

45较低

实习岗位薪资中等,B站为上市公司福利较完善,但作为实习生薪资竞争力有限。

薪资信号未披露(AI估算:4K-6K/月)

成长发展

90较高

该岗位技术深度高,涉及GPU、Linux、网络等前沿技术,成长空间极大,且JD中强调了技术跟踪和知识沉淀。

技术前沿前沿/新兴技术
技术栈GPU、DCGM、RDMA、InfiniBand、Prometheus、Grafana、Docker、CUDA
成长机会跟踪前沿技术、沉淀技术知识库、输出预防方案
业务类型profit_center

工作生活

40较低

需要参与7×24应急值守轮班,且未明确远程办公,生活平衡一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况明确要求弹性/高强度

使命价值

70中等

AI基础设施岗位支撑大模型训练,属于高速增长赛道,技术贡献具有较高社会价值。

行业发展高速增长赛道
社会影响中性/一般
使命信号支撑大模型训练、分布式算力业务稳定高效运行
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k