超大规模分布式训练
①设计和优化ND并行(EP/CP/DP/TP/PP)+ MoE并行混合策略,支撑万亿参数模型训练
②深入 Megatron-LM 内核,针对美团模型架构做定制化设计、改造,性能优化
③解决流水线气泡、显存碎片、梯度累积等大规模训练特有的工程难题,细粒度控制平衡计算通行的精度和效率
计算 & 算子优化
①基于 CUDA / Triton 开发高性能训练算子(FlashAttention变体、FusedMLP、RMSNorm等)
②推进 8bit、4bit 混合精度训练落地,在精度与速度之间找到最优平衡
③通过 profiling 定位热点,把MFU(模型算力利用率)推向理论上限
通信链路优化
①深挖 NCCL / RDMA / InfiniBand 通信性能,优化 AllReduce/AllGather/MoE层Dispatch/Combine 等集合通信原语
②结合网络拓扑设计通信-计算重叠策略,让通信开销近乎透明
稳定性 & 大规模容错
①构建万卡级自动故障检测、弹性容错、断点续训机制
②设计高效的异步checkpoint方案,千亿模型保存时间压到分钟级
③开发训练健康度监控系统:loss异常、梯度爆炸、卡间通信超时等实时告警
存储 & 数据IO
①解决 PB级预训练语料的高并发高吞吐读取问题
②设计 tokenized 数据的分布式缓存与预取,IO不成为训练瓶颈