参与开发下一代超大模型(百亿-万亿级)模型的GPU/NPU/PPU/CPU千卡互联分布式训练和推理框架
参与开发分布式并行/流水线/通信优化/ZeRO/FSDP工作,消除大规模分布式训练通讯/计算/内存瓶颈,极致优化模型训练和推理的性能
参与开发Triton,TileLang计算图编译优化或者使用CUDA/cutlass编写高性能算子,将硬件性能压榨到极致,最大化发挥出GPU/NPU/PPU/CPU等异构硬件协同算力
参与开发/调试用于异构计算全链路的AI编译器,探索基于IR编译优化的片内多部件并行流水线等前沿技术,构建业界影响力
支撑业界领先的多模态模型在国内最大的生活兴趣社区上落地