本科及以上学历,3年以上工作经验,有机器学习平台相关开发或运维经验
熟练使用 Go /Python/ Shell 等一种或多种编程语言,善于使用自动化/智能化方法让服务稳定高效
熟悉容器技术,掌握K8s、 Docker 的技术原理,有实际使用和运维经验
深入了解GPU架构与并行计算,掌握CUDA编程实践,熟悉RDMA网络通信技术、NCCL集合通讯,大模型分布式训练与推理架构及模型压缩技术
对于AI大模型应用的构建、部署和维护过程有深入理解
有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分
具有良好的沟通协调能力,较好的团队合作精神、责任心和一定抗压能力