精通PaddlePaddle、Pytorch、TensorFlow等开源框架,做过源码级优化移植等工作
对分布式计算有深入理解,特别是通信策略在AI计算中的应用
熟练使用Cublas、Cudnn、MIopen、OpenBlas、MKL、Eigen等主流计算库
精通CUDA、OpenCL和ARM-GPU等开发,有过并行计算优化协同开发经验
熟悉AI training通信过程,熟悉MPI、NCCL、RDMA、GPU Direct等通信技术
精通常用硬件平台性能分析工具链,如CodeXL\NVVP\GPA等
精通LLVM、SVM等编译优化原理和具备相关实践经验
有Linux内核相关开发和优化经验