美团的【基座大模型北斗实习】大模型预训练研究薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【基座大模型北斗实习】大模型预训练研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及其它工作经验。

🤖 AI 估测：¥8K-15K

发布时间：22 天前

这是一个专注于大模型预训练系统优化的实习岗位

你将参与千亿参数模型的超大规模分布式训练，负责从计算算子、通信链路到系统稳定性的全栈性能优化，目标是让每一张GPU都跑满，每一次迭代都不浪费

这是一个工程复杂度极高、能极大锻炼系统能力的岗位

超大规模分布式训练

①设计和优化ND并行（EP/CP/DP/TP/PP）+ MoE并行混合策略，支撑万亿参数模型训练

②深入 Megatron-LM 内核，针对美团模型架构做定制化设计、改造，性能优化

③解决流水线气泡、显存碎片、梯度累积等大规模训练特有的工程难题，细粒度控制平衡计算通行的精度和效率

计算 & 算子优化

①基于 CUDA / Triton 开发高性能训练算子（FlashAttention变体、FusedMLP、RMSNorm等）

②推进 8bit、4bit 混合精度训练落地，在精度与速度之间找到最优平衡

③通过 profiling 定位热点，把MFU（模型算力利用率）推向理论上限

通信链路优化

①深挖 NCCL / RDMA / InfiniBand 通信性能，优化 AllReduce/AllGather/MoE层Dispatch/Combine 等集合通信原语

②结合网络拓扑设计通信-计算重叠策略，让通信开销近乎透明

稳定性 & 大规模容错

①构建万卡级自动故障检测、弹性容错、断点续训机制

②设计高效的异步checkpoint方案，千亿模型保存时间压到分钟级

③开发训练健康度监控系统：loss异常、梯度爆炸、卡间通信超时等实时告警

存储 & 数据IO

①解决 PB级预训练语料的高并发高吞吐读取问题

②设计 tokenized 数据的分布式缓存与预取，IO不成为训练瓶颈

具备 CUDA kernel 开发和 Profile 能力，理解并行计算、存储层级架构，或具备国产AI算力开发经验

改过 Megatron-LM / DeepSpeed / FSDP 源码（不是只跑过）

了解 NCCL 原理或有 RDMA / 网络协议栈经验

MLSys / OSDI / SOSP / ISCA 等系统顶会论文

PyTorch / Megatron 开源贡献记录

【基座大模型北斗实习】大模型预训练研究

🤖 AI 估测：¥8K-15K

发布时间：22 天前