本科及以上学历,计算机/软件/电子相关专业
熟练掌握 Python/C++,具备扎实的工程能力与系统调试能力
熟悉 PyTorch 训练机制,理解反向传播、梯度同步、显存管理等原理
熟悉分布式训练框架(Megatron-LM/DeepSpeed/FSDP 等)并具备实战经验
熟悉 GPU/NPU 性能优化方法,能独立完成 profiling 与瓶颈定位(Nsight/perf 等)
熟悉训练侧算力优化技术,包括算子融合、图优化、Triton/CUDA Kernel 开发、编译器优化等
了解强化学习训练基本流程与常见框架,熟悉 rollout、reward model、policy update 等机制者优先
具备良好的问题分析能力与跨团队协作能力