5 年以上 Kubernetes 深度使用或二次开发经验,熟悉 Scheduler Framework、CRD、Operator
有 大规模 GPU 集群(≥100 卡)调度系统 实战经验,熟悉 Volcano / Kueue / YuniKorn 等批处理调度器
了解分布式训练通信原理,有 NCCL 调优、RDMA 故障排查、AllReduce 性能分析经验优先
参与过企业级机器学习平台(如 Kubeflow, Metaflow, SageMaker, PAI)核心模块开发
熟悉主流训练框架:DeepSpeed(ZeRO, Offload)、Megatron-LM(Tensor/Pipeline Parallel)、PyTorch FSDP
了解高性能网络硬件:NVIDIA ConnectX 系列 NIC、InfiniBand vs RoCE、GPUDirect 技术