参与研发下一代超大规模模型(百亿-万万亿级参数量)的GPU/NPU/PPU/CPU千卡互联分布式训练和推理框架
参与研发分布式并行/流水线/通信优化/ZeRO/FSDP,消除大规模分布式训练通讯/计算/内存/显存瓶颈,极致优化模型训练和推理的性能
参与Triton,TileLang计算图编译优化,研发CUDA/cutlass高性能算子,将硬件性能压榨到极致,最大化发挥出GPU/NPU/PPU/CPU等异构硬件协同算力
参与开发/调试用于异构计算全链路的AI编译器,探索基于MLIR/TIR编译优化的片内多部件并行流水线等前沿技术,构建业界影响力
支撑业界领先的Generative Recommendation/LLM/VLM模型在国内最大的生活兴趣社区上落地