本科及以上学历,计算机、软件工程、电子信息等相关专业,2年及以上GPU相关SRE或运维开发经验,主导过AI类业务或GPU集群的稳定性治理或成本优化项目
熟悉常见GPU硬件架构,熟悉GPU集群部署、调试与性能优化,有GPU集群运维经验
熟悉AI模型训练/推理流程,了解TensorFlow/PyTorch等框架,能从系统层面优化模型算力占用与执行效率
熟练掌握至少一种编程语言(Python/Go/Shell)及Vibe coding工具、技巧,能独立开发运维自动化工具或平台组件
有丰富的生产环境故障排查和性能调优经验,能够快速定位和解决问题
具备强烈的责任心与问题驱动意识,具备优秀的沟通和协作能力