Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
【B-UP】GPU集群调优工程师-服务器故障-校招
立即应聘

【B-UP】GPU集群调优工程师-服务器故障-校招

发布于 大约 15 小时前

普通员工/个人贡献者

上海市
无经验要求
全职员工
仅现场办公
本科
信息技术与基础设施
GPU
RDMA
IPMI
Dcgm

AI 估算 · 15k–25k

哔哩哔哩为上市互联网大厂,上海校招工程师薪资有竞争力,参考同规模公司,月薪估计在15k-25k之间,年终奖通常2-4个月。

职位详情

关于这个职位

该职位负责大规模GPU集群的底层调优与服务器硬件故障排查,保障AI训练/推理集群的稳定高效运行

你将深入接触GPU、RDMA网络、Linux系统等前沿技术,参与集群全栈性能优化,是AI基础设施领域的关键角色

最低要求

计算机、网络工程、电子信息、高性能计算、人工智能等相关专业

熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力
了解计算机网络基础原理,熟悉 TCP/IP、二层 / 三层网络架构,有 RDMA、InfiniBand、RoCE 网络认知者优先
了解 GPU、CUDA 基本概念,接触过分布式计算、高性能集群、AI 训练环境者优先
具备良好的问题排查思路、逻辑分析能力,学习能力强,能接受集群 7×24 应急值守(轮班),责任心强、善于沟通协作

工作职责

工作职责:

参与大规模 GPU 集群日常压测、基线梳理、运维保障,配合完成集群扩容、版本升级、环境标准化工作
基于 Prometheus、Grafana、DCGM 等工具搭建集群监控大盘,输出性能报表、故障分析报告与优化方案
编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册,沉淀技术知识库
协同算法、平台、网络团队,联动定位集群全链路问题,保障大模型训练、分布式任务稳定运行
跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术,持续优化集群架构与运行效率
岗位具体职责:
GPU 硬件故障检测:通过 DCGM、硬件日志定位 GPU 卡掉卡、硬件报错、温度 / 功耗异常、显存故障、MIG 切分异常等问题,配合完成硬件更换与复测
服务器硬件排查:检测主板、CPU、内存、NVMe 硬盘、电源、风扇等硬件故障,分析机柜供电、散热异常引发的节点宕机、重启问题
操作系统故障排查:分析 Linux 系统内核崩溃、OOM、会话卡死、驱动加载失败、定时任务异常等问题,修复系统配置缺陷
带外(BMC/BMS)运维与故障:通过 IPMI 工具排查带外管理链路异常、远程 KVM 失效、硬件监控数据采集失败等问题,落实 BMC 权限与安全管控
容器 / 运行时故障排查:定位 Docker、容器镜像启动异常、资源抢占、挂载失败等问题,保障 PaaS 平台节点稳定
故障闭环管理:建立服务器故障分级机制,复盘高频故障,输出预防方案,降低节点故障率

优先资格

了解服务器硬件结构、BMC/IPMI 带外管理,有服务器运维、硬件排障实习经验优先

AI 洞察

优缺点分析

优点

  • 加入哔哩哔哩大厂平台,接触顶尖GPU集群和AI基础设施,技术积累深厚
  • 岗位涵盖硬件、系统、网络、容器等多领域,能快速成长为全栈运维专家
  • AI算力需求爆发,该领域人才稀缺,职业前景广阔
  • 公司提供校招培训体系,导师制助力新人成长
  • 需要7×24应急值守轮班,工作强度较大,可能影响生活规律
  • 服务器故障排查需要耐心和细致,高压下快速定位问题
  • 技术栈要求广泛,需持续学习GPU、RDMA等前沿技术
  • 该职位适合对硬件和系统有浓厚兴趣、抗压能力强、喜欢深入钻研底层技术问题的应届生

缺点 / 挑战

暂无明显挑战项

角色解读

  • 往GPU集群架构专家方向发展,深入掌握硬件、网络、系统全栈优化技能
  • 可转向AI基础设施架构师,负责大规模算力平台的规划与设计
  • 也可向运维开发(DevOps)或SRE方向发展,结合自动化与监控能力
  • 负责GPU服务器硬件故障排查,包括显卡掉卡、内存错误、温度异常等,通过工具定位并配合更换
  • 参与集群监控系统搭建,使用Prometheus、Grafana、DCGM等工具监控集群状态,输出性能报表
  • 编写自动化脚本和运维文档,处理Linux系统内核崩溃、容器异常等问题
  • 协同算法、平台团队,定位训练任务中的全链路问题,保障大模型训练稳定
  • 扎实的Linux操作系统基础,熟悉常用命令和系统排障
  • 掌握Shell/Python脚本编程,能编写自动化运维工具
  • 了解GPU和CUDA基本概念,熟悉分布式计算或AI训练环境
  • 具备网络基础知识,了解TCP/IP、RDMA等高性能网络技术

申请策略

  • 面试前了解B站AI业务方向,如视频AI、内容推荐等,展现对公司的兴趣
  • 准备一个完整的故障排查案例,展示问题分析思路和解决过程
  • 突出GPU、Linux相关的项目或实习经历,如搭建过小集群或写过故障排查脚本
  • 强调编程能力,列出Shell或Python的自动化脚本作品
  • 如果有服务器运维、硬件排障经验,必须重点描述
  • 展示团队协作和沟通能力,如参与过跨团队合作项目
  • 自学Linux系统内核调试、GPU驱动基础,熟悉nvidia-smi、DCGM等工具
  • 练习Shell脚本编写,如自动化监控、日志分析脚本

面试指南

  • 对于故障排查类问题,遵循“收集信息→分析日志→逐步隔离→定位根因→修复验证”的步骤
  • 对于知识类问题,先明确概念,再结合实际场景说明应用
  • 对于脚本编写,先说明需求分析,再给出核心代码,最后解释逻辑
  • 如何定位一个GPU卡掉卡的问题?请描述排查步骤
  • Linux系统出现OOM(内存溢出)时,你会如何分析和解决?
  • 简述TCP/IP和RDMA网络的区别,以及在高性能计算中的应用
  • 编写一个Shell脚本,定期检查服务器硬件状态并发送告警
  • 如果你发现集群中某个节点频繁重启,可能的原因有哪些?

职位点评

69
综合评分

大厂校招、前沿GPU集群技术、成长空间大,但需接受轮班和高强度工作。

更适合这类人
最适合重视技术成长、愿意接受高强度轮班、追求前沿AI基础设施经验的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展85
工作生活45
使命价值70

薪资福利

75中等

哔哩哔哩为上市大厂,薪资福利在行业中上水平,但具体薪资未披露,校招通常有竞争力。五险一金、年终奖等福利齐全。

薪资信号未披露(AI估算:15K-25K/月)

成长发展

85较高

岗位涉及GPU集群、RDMA、AI训练等前沿技术,能深度积累基础设施经验。公司有校招培养体系,成长路径清晰。

技术前沿前沿/新兴技术
技术栈GPU、RDMA、DCGM、Prometheus、Docker、Linux
成长机会沉淀技术知识库、跟踪前沿技术
业务类型ambiguous

工作生活

45较低

要求7×24应急值守轮班,仅现场办公,WLB较差。但未明确加班文化,整体生活化动机满足度低。

工作模式仅现场办公
办公地点市区核心地段
加班情况明确要求弹性/高强度

使命价值

70中等

AI算力基础设施是高速增长赛道,对社会科技创新有积极意义。但岗位偏运维,直接使命感不强。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k