哔哩哔哩的AI开发实习生（模型工程方向）【2027届】薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

AI开发实习生（模型工程方向）【2027届】的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

该职位要求本科学历及初级经验工作经验。

🤖 AI 估测：¥8K-15K

发布时间：18 天前

这是一个面向2027届毕业生的AI模型工程实习生岗位

你将深度参与哔哩哔哩大规模AI模型的分布式训练框架优化、推理引擎加速以及底层算力与存储系统的性能调优工作

核心目标是保障千卡级集群的稳定高效运行，解决从训练到推理全链路的技术挑战

工作职责: 1. 分布式训练底座 (Training Infra) 架构设计：负责维护和优化基于 Megatron-LM, DeepSpeed, Ray 或 FSDP 的大规模分布式训练框架

通信优化：深入优化 H/NCCL 通信库，解决 RDMA/RoCE 网络下的通信瓶颈，提升多机多卡并行效率（DP/PP/TP/CP/EP）

稳定性保障：构建自动容错与快速恢复系统（Checkpoint 优化、故障自动检测与接续），确保千卡集群在数月跨度的训练中保持极高可用性

2. 推理加速与工程化 (Inference Infra) 高性能引擎：深度定制或调优 vLLM, TensorRT-LLM, Triton Inference Server 等推理框架

算子开发：针对 Transformer 结构编写高性能 CUDA/Triton kernels（如 FlashAttention, PagedAttention 的底层实现或改进）

资源调度：优化 K8s 集群下的 GPU 资源调度，实现动态扩缩容、请求批处理（Continuous Batching）以及 Prefix Caching

3. 存储与算力管理 (Storage & Compute) I/O 优化：优化超大规模数据集的加载速度，解决训练过程中的存储带宽瓶颈（如利用 GPFS, Lustre 或 JuiceFS）

监控与观测：建立精细化的 GPU 利用率、显存压力、网络带宽监控体系，定位并消除“长尾效应”和计算气泡

技术底色：计算机相关专业，具有较强的系统编程能力，精通 Python 和 C/C++

分布式背景：深入理解分布式协议（如 Raft/Paxos）及分布式计算理论，有大规模集群（128卡以上）运维或开发经验

计算底层：熟悉 NVIDIA GPU 架构 (Hopper/Ampere/Blackwall)，理解显存层次结构、流处理器（SM）工作原理

框架经验：至少深入读过一种主流框架（如 PyTorch,Megatron, vLLM, DeepSpeed）的底层核心源代码

网络与硬件：熟悉 InfiniBand 或 RoCE 网络拓扑，了解 AI 服务器硬件架构（NVLink, NVSwitch）

AI开发实习生（模型工程方向）【2027届】

🤖 AI 估测：¥8K-15K

发布时间：18 天前