Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
【B-UP】GPU集群调优工程师-性能调优(实习)
立即应聘

【B-UP】GPU集群调优工程师-性能调优(实习)

发布于 大约 15 小时前

实习/见习

上海市
无经验要求
实习生
仅现场办公
学历未注明
信息技术与基础设施
GPU
PyTorch
CUDA
RDMA
NCCL
Distributed Training

AI 估算 · 4k–8k

大厂 GPU 集群实习,技术含金量高,日薪通常 200-400 元,月薪估算 4-8k。

职位详情

关于这个职位

该实习岗位聚焦于大规模 GPU 集群的全栈性能优化,涉及硬件驱动、分布式通信、系统内核及 AI 框架调优

你将参与大模型训练集群的日常运维、监控和故障排查,配合团队提升集群算力利用率与任务吞吐
适合对高性能计算和 AI 基础设施有浓厚兴趣的技术同学

最低要求

计算机、网络工程、电子信息、高性能计算、人工智能等相关专业

熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力
了解计算机网络基础原理,熟悉 TCP/IP、二层/三层网络架构,有 RDMA、InfiniBand、RoCE 网络认知者优先
了解 GPU、CUDA 基本概念,接触过分布式计算、高性能集群、AI 训练环境者优先
具备良好的问题排查思路、逻辑分析能力,学习能力强,能接受集群 7×24 应急值守(轮班),责任心强、善于沟通协作

工作职责

工作职责:

面向高性能 GPU 大卡集群、AI 训练 / 推理集群,聚焦集群全栈性能优化、网络异常检测、服务器故障定位,支撑大模型训练、分布式算力业务稳定高效运行
团队通用职责:
参与大规模 GPU 集群日常压测、基线梳理、运维保障,配合完成集群扩容、版本升级、环境标准化工作
基于 Prometheus、Grafana、DCGM 等工具搭建集群监控大盘,输出性能报表、故障分析报告与优化方案
编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册,沉淀技术知识库
协同算法、平台、网络团队,联动定位集群全链路问题,保障大模型训练、分布式任务稳定运行
跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术,持续优化集群架构与运行效率
岗位具体职责:
聚焦硬件、驱动、通信库、调度、框架全维度性能优化,提升集群算力利用率与任务吞吐,细分具体工作内容:
负责 GPU 硬件栈调优:完成 GPU 驱动、CUDA、cuDNN、固件版本选型与参数调优,优化 GPU 功耗、显存占用、卡间 NVLink 通信效率,解决 GPU 降频、算力跑不满问题
分布式通信优化:针对 NCCL 集合通信库做参数调优,优化多机多卡分布式训练通信逻辑,降低通信时延、提升集合通信吞吐
系统与内核调优:基于 Linux 操作系统做内核参数、内存、IO、进程调度优化,适配高负载 GPU 集群运行场景
算力调度优化:配合 Slurm/K8s 算力调度平台,优化任务队列、资源配额、负载均衡策略,减少任务排队、资源碎片问题
AI 框架适配调优:对接 PyTorch、TensorFlow、vLLM 等主流框架,完成训练 / 推理场景参数调优,实现计算与通信重叠,提升端到端任务性能
集群基准测试:使用行业标准压测工具完成集群算力、吞吐、时延基准测试,定位性能瓶颈并落地优化方案

优先资格

了解 NCCL、分布式训练原理,有 Linux 内核调优、算力压测相关实践经验

AI 洞察

优缺点分析

优点

  • 接触大规模 GPU 集群,技术前沿,能深入底层性能调优
  • 哔哩哔哩大厂平台,技术氛围浓厚,能接触业界一流实践
  • 团队职责包含前沿技术跟踪,有持续学习成长空间
  • 需要 7×24 轮班应急值守,工作强度较大
  • 实习期间需要快速掌握大量底层知识,学习曲线陡峭
  • 集群调优问题复杂,需要较强的逻辑分析和排查能力

缺点 / 挑战

  • 适合对高性能计算、AI 基础设施有浓厚兴趣,自学能力强,能承受一定工作压力的在校学生

角色解读

  • 积累大规模 GPU 集群调优经验,成为高性能计算或 AI 基础设施专家
  • 可向算法工程、平台架构或分布式系统方向深入发展
  • 有机会转正为正式员工,参与更核心的集群设计与规划
  • 参与大规模 GPU 集群的日常压测、监控和故障排查,使用 Prometheus、Grafana、DCGM 等工具搭建监控大盘
  • 负责 GPU 硬件、驱动、CUDA 等层的调优,优化 NVLink 通信效率和 GPU 功耗
  • 针对 NCCL 进行分布式通信调优,降低多机多卡训练通信延迟
  • 配合 Slurm/K8s 调度平台优化资源分配,提升集群利用率和任务吞吐
  • 熟悉 Linux 操作系统,掌握 Shell/Python 脚本编写
  • 了解计算机网络基础,对 RDMA/InfiniBand 有认知者优先
  • 具备 GPU 和 CUDA 基础概念,了解分布式训练或高性能计算
  • 良好的问题排查和学习能力,能适应 7×24 轮班值守

申请策略

  • 在简历中体现对技术细节的追求和解决问题的能力,可附上相关博客或 GitHub 项目
  • 了解哔哩哔哩的技术栈和 AI 业务方向,面试中展现匹配度
  • 突出 Linux 使用经验、Shell/Python 脚本编写能力
  • 强调与 GPU、CUDA、分布式训练相关的项目或课程实践
  • 展示网络基础(TCP/IP、RDMA)或高性能计算相关经历
  • 如有参与过压测、性能调优等实践,务必详细描述
  • 提前学习 CUDA 编程和 NCCL 基础,了解分布式训练原理
  • 动手搭建简单 GPU 集群环境(如使用 Docker + PyTorch),练习性能监控工具(Prometheus)

面试指南

  • 针对性能问题:先明确现象,再分层排查(硬件/驱动/网络/框架),使用工具定位
  • 针对原理问题:从基础概念出发,结合具体场景说明优化手段
  • 针对项目经历:采用 STAR 原则,突出个人贡献和量化结果
  • 解释 GPU 训练中常见的性能瓶颈有哪些?如何定位?
  • NCCL 的基本原理是什么?如何调优集合通信?
  • 描述一次你排查 Linux 系统性能问题的经历
  • 如何监控大规模 GPU 集群的运行时状态?
  • 你对 RDMA 和 InfiniBand 的了解?

职位点评

59
综合评分

大厂GPU集群实习,技术前沿、成长性强,但需轮班值守,WLB较差。

更适合这类人
适合高度重视技术成长、愿意投入高强度学习、对工作生活平衡要求不高的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利50
成长发展85
工作生活30
使命价值70

薪资福利

50较低

实习薪资处于市场中等水平,但大厂福利尚未明确,稳定性一般,补偿性动机满足程度有限。

薪资信号未披露(AI估算:4K-8K/月)

成长发展

85较高

技术栈前沿,涉及 GPU、CUDA、分布式通信等新兴技术,成长空间大,但缺少明确的培训或晋升信号。

技术前沿前沿/新兴技术
技术栈GPU、CUDA、NCCL、RDMA、PyTorch、Kubernetes
业务类型ambiguous

工作生活

30较低

要求现场办公且7×24轮班值守,工作灵活性差,生活化动机满足度低。

工作模式仅现场办公
办公地点科技园/产业园
加班情况JD含高强度暗示词

使命价值

70中等

AI行业高速增长,岗位对技术推动有积极意义,但社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 20k-35k
  • 调度系统专家

    美团 · 北京市
    AI 估算 · 60k-90k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-5k
  • 通信工程技术人员

    中国融通集团 · 武汉市
    AI 估算 · 8k-15k
  • 云计算工程师

    中国电信 · 阜阳市
    AI 估算 · 6k-10k