Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
【B-UP】模型开发工程师AI Infra(实习)
立即应聘

【B-UP】模型开发工程师AI Infra(实习)

发布于 大约 15 小时前

实习/见习

上海市
无经验要求
实习生
仅现场办公
学历未注明
研究与开发 (研发)
PyTorch
CUDA
RDMA
GPU架构
NCCL
RoCE
Megatron-LM
vLLM
TensorRT-LLM

AI 估算 · 4k–8k

实习岗位,B站为上市公司,技术栈前沿,实习薪资处于行业中上水平,按日薪200-400估算月薪。

职位详情

关于这个职位

该实习岗位专注于AI基础设施,涉及大模型分布式训练框架优化、推理加速与工程化

你将参与Megatron-LM、vLLM等开源框架的改进,深入GPU底层算子优化,解决千卡集群的通信与稳定性问题
适合对高性能计算和系统编程有浓厚兴趣的同学

最低要求

计算机相关专业,具有较强的系统编程能力,精通 Python 和 C/C++

熟悉 NVIDIA GPU 架构 (Hopper/Ampere/Blackwall),理解显存层次结构、流处理器(SM)工作原理
熟悉 PyTorch 等深度学习框架,具有训练或推理性能优化经验者优先
阅读过 Megatron、DeepSpeed、vLLM、TensorRT-LLM 等开源项目源码者优先
理解并行计算与分布式系统基本原理,了解数据并行(DP)、张量并行(TP)、流水线并行(PP)等常见大模型训练技术,有相关项目经验者优先
了解 InfiniBand、RoCE 等高速网络技术,以及 NVLink、NVSwitch 等 AI 集群互联架构

工作职责

分布式训练底座 (Training Infra)

框架优化:负责维护和优化基于 Megatron-LM, FSDP, VeRL的分布式训练框架,通过多维并行策略提高训练吞吐
算子优化:参与多模态大模型训练核心算子的设计与优化,包括 Attention、MoE、算子融合等方向,持续提升模型训练效率和硬件利用率
通信优化:深入优化 H/NCCL通信库,解决 RDMA/RoCE 网络下的通信瓶颈,提升多机多卡并行效率(DP/PP/TP/CP/EP)
稳定性保障:构建自动容错与快速恢复系统(Checkpoint 优化、故障自动检测与接续),确保千卡集群在数月跨度的训练中保持极高可用性
推理加速与工程化 (Inference Infra)
高性能引擎:负责基于 vLLM、TensorRT-LLM、SGLang、Triton Inference Server 等推理框架的开发与优化,提升大模型在线服务的吞吐、时延和资源利用率
算子优化:参与 Transformer 核心算子的开发与性能优化,包括 Attention、KV Cache、量化推理、算子融合等方向,探索 CUDA/Triton 等高性能实现方案
推理架构:参与构建面向大规模生产环境的推理服务体系,支持高并发、低延迟和高可用的模型服务部署与运维
存储与算力管理 (Storage & Compute)
I/O 优化:优化超大规模数据集的加载速度,解决训练过程中的存储带宽瓶颈(如利用 GPFS, Lustre 或 JuiceFS)
稳定性保障:构建大规模集群故障检测、自动恢复与容灾体系,提升训练与推理服务的可靠性、高可用性及运维效率
资源调度:构建面向训练与推理场景的 GPU 资源调度体系,支持多租户资源共享、弹性扩缩容、任务优先级管理及异构算力调度,提高集群整体利用率

AI 洞察

优缺点分析

优点

  • B站为上市大厂,技术平台和资源丰富,能接触前沿大模型技术
  • 工作内容聚焦 AI Infra,是当前热门方向,技能积累极具市场价值
  • 能参与开源项目(Megatron、vLLM)的贡献,提升技术影响力
  • 技术深度要求高,需要同时对系统、网络、算法有扎实理解,学习曲线陡峭
  • 实习期间可能面临高强度任务,需要快速产出成果
  • AI Infra 领域竞争激烈,需要持续跟踪最新论文和开源进展

缺点 / 挑战

  • 适合计算机相关专业,对系统性能优化有热情,喜欢挑战技术难题的研究型或工程型学生

角色解读

  • 从实习转为正式 AI Infra 工程师,深入大模型训练与推理系统优化
  • 向资深系统工程师或架构师发展,主导千卡集群的分布式方案设计
  • 可横向迁移至其他大模型基础设施岗位,如推理平台、计算集群管理
  • 负责维护和优化基于 Megatron-LM、FSDP 等分布式训练框架,通过多维并行策略提升训练吞吐
  • 参与 Transformer 核心算子的开发与性能优化,如 Attention、MoE、算子融合等,探索 CUDA/Triton 实现
  • 优化推理引擎基于 vLLM、TensorRT-LLM,提升大模型服务的吞吐和时延
  • 参与构建集群故障检测、自动恢复系统及 GPU 资源调度,保障训练稳定性
  • 精通 Python 和 C/C++,具备较强系统编程能力
  • 熟悉 NVIDIA GPU 架构 (Hopper/Ampere),理解显存层次和 SM 工作原理
  • 熟悉 PyTorch 及分布式训练框架 (Megatron、DeepSpeed),有性能优化经验优先
  • 了解高速网络 (InfiniBand/RoCE) 和集群互联 (NVLink/NVSwitch)

申请策略

  • 了解 B 站在 AI 领域(如视频理解、推荐系统)的应用,在面试中表达业务关联性
  • 准备一个性能优化案例,从问题定位、方案设计到效果提升完整阐述
  • 突出 CUDA/Triton 编程经验,以及 GPU 性能优化项目(如矩阵乘法、算子融合)
  • 展示分布式训练或推理的实战经历,包括并行策略(DP/TP/PP)的使用
  • 如果参与过开源项目(如 PyTorch、vLLM)的贡献,务必详细说明
  • 强调系统编程能力,如内存管理、多线程、网络编程等
  • 系统学习 NVIDIA GPU 架构文档,理解 SM、显存、NVLink 等概念
  • 动手复现 Megatron-LM 或 vLLM 的 part-level 源码,提升框架理解

面试指南

  • 先拆解问题核心,比如训练吞吐或推理延迟,从计算、通信、I/O 三个维度分析瓶颈
  • 结合具体技术方案,如并行策略、算子融合、通信压缩等,说明其原理和适用场景
  • 若有实际经验,用 STAR 法则(Situation, Task, Action, Result)描述案例
  • 解释 Megatron-LM 中的 tensor parallelism 和 pipeline parallelism 如何工作?
  • 如何优化一个 Transformer 模型的训练吞吐?请具体说明可能的方法
  • CUDA kernel 中 shared memory 和 global memory 的区别是什么?如何利用 shared memory 优化?
  • NCCL 中的 allreduce 操作是如何实现的?如果通信出现瓶颈,你会如何排查?
  • 请描述一个你之前遇到的性能优化案例,你是如何分析和解决的?

职位点评

59
综合评分

顶尖AI Infra实习,技术深度极高,发展前景好,但薪资一般且需现场办公。

更适合这类人
适合以技能成长为首要目标,愿意投入高强度学习的技术型学生,对短期薪资不敏感。
表现最好
成长发展
相对薄弱
薪资福利
薪资福利30
成长发展95
工作生活50
使命价值60

薪资福利

30较低

实习薪资相对全职较低,但B站为上市企业,福利有保障。整体补偿性动机满足程度有限。

薪资信号未披露(AI估算:4K-8K/月)

成长发展

95较高

该岗位技术深度极高,涉及前沿大模型训练推理基础设施,能大幅提升系统编程和分布式计算能力,发展性动机强烈满足。

技术前沿前沿/新兴技术
技术栈Megatron-LM、FSDP、vLLM、TensorRT-LLM、PyTorch、CUDA、NCCL、RDMA、RoCE、GPU架构
成长机会实习
业务类型profit_center

工作生活

50较低

实习通常需要在上海现场办公,未提及弹性工作制,但B站工作环境相对包容,Lifestyle满足一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

60中等

AI Infra 是大模型时代关键基础设施,具有技术前瞻性,但作为实习岗,社会影响力有限。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • 上车体布置集成工程师-人机工程方向

    小米 · 南京市
    AI 估算 · 15k-25k
  • 智慧零售算法工程师

    腾讯 · 武汉市
    AI 估算 · 20k-35k
  • 混元Agent后训练算法工程师(北京/上海/深圳)

    腾讯 · 北京市
    AI 估算 · 35k-65k
  • 混元VLM 预训练数据算法工程师(北京/深圳/上海)

    腾讯 · 北京市
    AI 估算 · 25k-40k
  • 算法工程师-大模型

    中国平安 · 深圳市
    AI 估算 · 25k-45k

哔哩哔哩 的其他在招职位

  • 【B-UP】大模型算法工程师(视频理解)(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 5k-10k
  • 【B-UP】推荐算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】大语言模型(LLM)算法工程师(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k
  • 【B-UP】推荐算法工程师(实习)

    哔哩哔哩 · 上海市
    AI 估算 · 3k-6k
  • 【B-UP】模型开发工程师AI Infra(校招)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • 上车体布置集成工程师-人机工程方向

    小米 · 南京市
    AI 估算 · 15k-25k
  • 智慧零售算法工程师

    腾讯 · 武汉市
    AI 估算 · 20k-35k
  • 混元Agent后训练算法工程师(北京/上海/深圳)

    腾讯 · 北京市
    AI 估算 · 35k-65k
  • 混元VLM 预训练数据算法工程师(北京/深圳/上海)

    腾讯 · 北京市
    AI 估算 · 25k-40k
  • 算法工程师-大模型

    中国平安 · 深圳市
    AI 估算 · 25k-45k