计算机及相关专业本科以上学历,3年以上高性能系统或AI Infra研发经验
精通C/C++/CUDA/AscendC/TopsCC,具备扎实的系统底层能力(内存、并发、网络)
深入理解至少一种主流训练/推理框架(XDL、TFRA、DeepRec、TorchRec、DeepSpeed、veRL、Megatron等),对其执行模型与性能瓶颈有源码级洞察
熟悉TensorFlow Serving、TensorRT、OpenXLA、ONNX Runtime等推理后端,具备大模型量化、编译优化与线上 A/B 调优实战经验
有GPU/NPU集群建设与性能调优经验,熟练使用CUDA、cuDNN、TensorRT等工具,能够定位并解决分布式环境中的复杂性能瓶颈