有扎实的工程算法基础,精通数据结构和常用算法,熟练掌握各种编译、调试、性能分析工具
精通C/C++/CUDA,具备扎实的系统底层能力(内存、并发、网络)
有大规模分布式系统开发和优化经验
有大模型分布式训练经验者优先
精通MLIR/TVM/Triton/Torch Inductor/TileLang/Verbs/NCCL/NVSHMEM等分布式异构计算框架和相关工具链
精通Megatron/DeepSpeed/veRL/OpenRLHF/LLaMA-Factory等业界开源训练框架
熟悉常见深度学习模型结构