熟悉主流大模型推理框架,如vllm,lightllm,tensorrt-llm,lmdeploy,faster transformer等
熟悉CUDA,triton(https://openai.com/research/triton)、cutlass至少一种以上,精通者优先
熟悉大模型结构,了解大模型性能瓶颈,熟练分析单机及分布式情况下不同性能热点和优化手段
熟悉大模型量化算法,int8/fp8/混合精度量化,了解模型蒸馏、稀疏化、剪裁技术
熟悉推理服务框架,具备服务部署经验者优先,了解k8s,容器化服务,Triton Inference Server (https://github.com/triton-inference-server/server)实现原理者优先
熟悉分布式模型部署及并行策略,如模型并行、流水线并行等,了解NVLINK、GPU通信者优先
熟练掌握Python及C++
了解GPU体系结构者优先