围绕大模型异构算力集群,尤其是国产算力集群,面向大模型训练和推理场景支持算力评估、适配和落地维护,具体包括分布式优化框架,AI框架,网络集合通信,算子等方面内容
负责大模型分布式优化框架的系统分析,性能调优,特性开发,问题定位等工作,支持常见的大模型分布式优化框架
负责PyTorch在异构算力下系统分析,性能调优,问题定位等工作
负责常见的大模型场景下高性能Kernel算子的关键指标分析和统计,融合开发,性能优化等工作
负责大模型超万卡规模的集合通信/NCCL关键指标分析和统计,系统定位/调优等工作
负责多种算力的Benchmark评测,对比验证,性能分析等工作