本科及以上学历,3 年及以上研发经验,有大规模容器集群或平台型系统建设经验,有千卡及以上规模集群管理或调度经验者优先
熟练掌握 Golang,具备扎实的数据结构与算法基础,能够独立定位和解决复杂系统问题
熟悉 Kubernetes 核心机制与组件(如调度、网络、存储、Controller/CRD 等),了解容器运行时及云原生相关技术体系
熟悉常见分布式数据处理或计算框架(如 Ray / Spark / Flink 等),理解其架构设计与运行模型
了解并行计算与高性能计算相关技术,具备 OpenMP / MPI / RDMA 等使用或优化经验者优先
熟悉至少一种主流深度学习框架及分布式训练方案,如 PyTorch、DDP、DeepSpeed、FSDP 等
具备良好的自驱力、责任感和团队协作意识,能够与算法、平台及业务团队高效协作