围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容
参与美团机器学习平台建设,构建非NV GPU大规模训练场景软件栈和算法迭代Pipeline
负责NLP类大模型的训练端到端流程,包括训练使能,系统调优,关键指标分析和统计,问题定位等工作,支持常见生成式NLP类大模型,包括但不限于LlaMa 1/2, GPT, BLOOM等
负责视觉类,多模态大模型的训练端到端流程,包括模型使能,系统调优,关键指标分析和统计,问题定位等工作,支持常见的视觉类,多模态大模型,包括但不限于ViT,Swin Transformer,Stable Diffusion, MoE等
负责大模型分布式优化框架的系统分析,性能调优,特性开发,问题定位等工作,支持常见的大模型分布式优化框架,包括但不限于Megatron, DeepSpeed, FSDP等
负责PyTorch在非NV GPU场景下系统分析,性能调优,问题定位等工作
负责常见的大模型训练场景下高性能Kernel算子的关键指标分析和统计,融合开发,性能优化等工作
负责大模型不同规模卡数训练场景下集合通信/NCCL关键指标分析和统计,系统定位/调优等工作
负责与NV GPU相同场景进行Benchmark评测,对比验证,性能分析等工作