熟练掌握C/C++、Python编程语言,具备良好的coding和调试能力
熟悉GPU/AI芯片编程,如CUDA,OpenCL,Ascend C等
熟悉常见的算子编译优化和算子调优手段,如torch.compile,triton等
熟悉各类深度学习网络和算子底层实现细节,训练和推理模型调试、调优有实操经验优先
熟悉主流推理框架,如vllm,sglang,tensorrt-llm,FasterFransformer等优先
熟悉并行策略,如模型并行、流水线并行等,了解NVLINK、GPU通信者优先
具备GPU、AI芯片体系结构知识,熟悉芯片特性,具备系统性能分析和调优经验优先