关键技能:
分布式训练技术:
掌握分布式训练框架(如 Horovod、PyTorch Distributed)的使用和优化
具备设计和实现高效分布式训练系统的能力
硬件加速优化:
熟悉 GPU、TPU 等硬件架构,能够进行硬件级性能调优
了解 CUDA、cuDNN 等相关技术,能够利用硬件加速提升训练和推理效率
模型优化技术:
了解量化、剪枝、压缩等模型优化方法,以提升推理效率
能够在实际项目中应用这些技术,优化模型大小和推理速度
负载均衡与通信优化
能够设计高效的负载均衡策略和通信机制,以应对 MOE 模型的稀疏性挑战
优化分布式系统中的通信开销,提高数据传输效率
系统设计能力:
具备分布式系统设计经验,能够解决大规模模型训练和推理中的工程问题
能够设计和实现高可用、高扩展性的系统架构
其他:
计算机科学、软件工程、人工智能或相关领域的本科及以上学历
熟悉至少一种深度学习框架,如 TensorFlow、PyTorch 等
具备扎实的分布式系统和高性能计算的相关知识,熟悉 MPI、NCCL 等通信库
熟悉 Linux 操作系统及常用命令,具备良好的脚本编写能力(如 Bash、Python 等)
具备良好的问题解决能力和团队协作精神,能够承受工作压力,保证项目按时完成
良好的英语阅读和写作能力,能够阅读和理解英文技术文档