至少熟练掌握 C/C++或Python中的一种语言,有计算机体系结构背景或软件开发背景,熟悉系统性能调优的方式
有Tensorrt/FasterTransformer/Tensorrt-llm/vllm等深度学习推理框架的实际使用经验
具备基础的GPU编程能力,包括但不限于Cuda、OpenCL、Triton优先
熟悉至少一种GPU加速库,如cublas、cudnn、cutlass等优先
熟悉各类深度学习网络和算子底层实现细节,训练和推理模型调试、调优有实操经验优先
熟悉CPU/GPU异构加速瓶颈分析方法,有服务器端 AI 芯片、GPU加速经验优先
熟悉分布式推理常用加速方法,有超大模型分布式部署经验优先