编程能力:扎实的编程功底,熟练使用 Python/Go/C++ 中的至少两种,具备高性能网络编程或系统级开发经验,能独立完成大型模块的设计与开发
分布式系统:熟悉 Kubernetes 底层原理及 Operator 开发模式,有自定义调度器、控制器开发经验者优先
熟悉资源调度系统(Yarn/Slurm/K8s)架构及实现
AI基础设施:了解常用AI框架(PyTorch)的分布式训练原理,熟悉 NCCL/RDMA 等通信库
对 GPU 架构(NVIDIA A100/H800等)有较深理解,有 CUDA 开发或性能剖析(Profiling)经验者加分
网络与存储:了解分布式存储(如 Ceph、Lustre、JuiceFS、Alluxio)在大模型训练场景的适配与调优
熟悉高性能网络(RoCE/InfiniBand)原理及常见问题排查
故障排查:具备极强的系统问题排查能力,能处理从内核、驱动、库到应用层的系统性故障,有大型集群稳定性保障经验