本科及以上学历,计算机相关专业或具备同等实践经验,拥有五年以上SRE工作经验
熟悉GPU/XPU资源管理和调度,具备大规模高性能计算集群的管理经验
具备深厚的计算机系统基础知识,了解操作系统、存储和网络IO等相关原理
具备以下一项或多项软件开发经验:Go/Python/Java/C++等,能够编写高效、稳定的系统工具和自动化脚本
有丰富的生产环境故障排查和性能调优经验,能够快速定位和解决问题
熟悉AI大模型训练框架(如TensorFlow、PyTorch等),了解大规模分布式训练的实现细节和优化方法
具备优秀的沟通和协作能力,能够与业务方、开发团队紧密合作,推动项目顺利进行
具有高度的责任感和主动性,能够在快节奏下保持高效工作