具有以下条件者优先:
精通PaddlePaddle、Caffe/Caffe2、MXNET、TensorFlow等开源框架,做过源码级优化移植等工作
熟练使用Cublas、Cudnn、MIopen、OpenBlas、MKL、Eigen等主流计算库
熟悉AI training通信过程,熟悉MPI,NCCL,RDMA,GPU Direct等通信技术
精通CUDA/OpenCL开发,有SASS或PTX级别优化开发经验
精通Neon或ARM-GPU开发,有过大小端并行计算优化经验及ARM-GPU协同开发经验
精通常用硬件平台性能分析工具链,如CodeXL\NVVP\GPA等
精通LLVM
有Linux内核相关开发和优化经验