熟练掌握C/C++、Python编程语言,具备良好的coding和调试能力
熟悉GPU/AI芯片编程,如CUDA,OpenCL,Ascend C等,熟悉cutlass等加速库是加分项
熟悉主流大模型推理框架,如vllm,sglang,tensorrt-llm,FasterFransformer等
熟悉各类深度学习网络和算子底层实现细节,训练和推理模型调试、调优有实操经验优先
熟悉并行策略,如模型并行、流水线并行等,了解NVLINK、GPU通信者优先
具备GPU、AI芯片体系结构知识,熟悉芯片特性,具备系统性能分析和调优经验优先