硕士及以上学历,计算机科学、软件工程、人工智能等相关专业,具备大模型训练Infra、推理加速或分布式系统研发经验
熟悉Megatron-LM、DeepSpeed、FSDP等主流分布式训练框架,理解数据并行、模型并行、张量并行、流水并行、专家并行等核心机制
熟练掌握Python/C++,熟悉PyTorch等深度学习框架,具备扎实的工程实现、性能分析与问题排查能力
理解Transformer及其变体、Diffusion、MoE等主流模型结构,熟悉训练和推理阶段常见的性能瓶颈与优化方法
具备模型推理加速,熟悉TensorRT、ONNX Runtime、Triton等推理框架或相关工具,具备量化、算子融合、显存优化等实践经验者优先
有大规模GPU集群训练、推理部署、容错与调度优化经验者优先
具备良好的跨团队协作与技术推动能力,能够结合业务需求设计高效稳定的训练推理方案