熟练掌握C/C++、Python编程语言,具备良好的coding和调试能力,具备计算机体系架构功底和大型分布式系统开发调优经验优先
熟悉和调优NVIDIA GPU和各种AI芯片至少一种,包括AMD、海光/摩尔/沐曦/ GPGPU架构、Ascend、寒武纪、昆仑芯等,两种以上优先
熟悉和调优GPU和各种AI芯片底层算子编程方式至少一种,包括CUDA、Triton、TileLang、AscendC、BangC等,两种以上优先
精通和具备vllm/sglang 等推理引擎深度实践经验,参与过基于上述引擎的大模型推理系统定制化开发与性能调优
精通推理引擎底层优化技术
熟悉和了解业界主流大模型如DeepSeek、Qwen系列模型结构,常见切分方式,有针对性的分布式推理调优原理分析和实践经验优先
熟悉和了解模型适配异构芯片的流程,具备适配经验,有端到端完成模型推理适配,精度/性能调优者优先
熟悉和了解集合通信原理和常见互联形态,如NCCL、NVLink、RoCE等