有大规模K8s集群管理经验,熟悉容器技术、服务网格和云原生CI/CD工具链
熟悉主流机器学习框架(TensorFlow/PyTorch),深入理解分布式训练原理(数据并行、模型并行)
有MLOps平台构建经验,熟悉Kubeflow、MLflow、Ray等工具,了解模型优化技术
深入理解GPU工作原理和调度机制,熟悉NVIDIA GPU架构,有GPU集群管理和资源调度经验
熟练掌握 Python/Go,具备优秀的分布式系统设计能力
熟悉高性能网络(RDMA/InfiniBand)或高性能存储者优先
具备优秀的沟通协调能力和抗压能力