计算机、软件工程、数学、电子信息、自动化等相关专业,本科及以上学历
扎实的编程基础,熟练使用 C/C++,对代码质量与工程实践有较高要求
熟练掌握 GPU 编程,有实际 CUDA 开发经验
熟悉 CUTLASS、Triton 等任一或多种算子开发/优化框架
熟悉并行计算原理,对 GPU 体系结构(SM、Warp、Memory Hierarchy、Occupancy 等)有较深入理解
对 3D 并行训练(如数据并行、模型并行、流水并行、混合并行等)有实践经验,能够理解并分析其对算子与通信模式的影响
具备良好的问题定位与性能分析能力,能熟练使用 Nsight、nvprof、perf 等性能分析工具进行瓶颈分析和优化