有公有云平台运维经验,或熟悉AWS/Azure/GCP等云服务的使用与底层机制
有大规模云主机交付、镜像体系、资源调度、网络适配、虚拟化(KVM/QEMU)相关经验
熟悉容器与云原生体系(Docker/Kubernetes/Containerd),理解cgroup/Namespace等隔离机制
有GPU集群维护经验(驱动、CUDA、MIG、拓扑、故障定位、压测、交付链路等)
有稳定性专项建设经验,如:故障演练体系、容量治理、变更治理、可观测性平台、资源成本优化等
有开源项目贡献、技术博客、专利、技术分享等沉淀者优先