学历要求:本科及以上学历,计算机相关专业(如计算机科学与技术、软件工程、网络工程等)
工作年限:5-10年应用运维相关工作经验,具备丰富的大型服务器集群运维实战经历
核心技术:
系统&网络底座:精通Linux运维、系统调优、进程/内存/磁盘/网络排障
熟悉TCP/IP、Nginx、常见中间件(Redis、MQ、MySQL)日常维护与问题排查
K8s云原生核心:吃透K8s整体架构与核心组件,熟练管理集群节点、工作负载、RBAC权限、Ingress、存储PV/PVC、CNI网络
会集群升级、扩容缩容、资源配额、HPA弹性、容器问题排查(Pod崩溃、调度失败、镜像异常、资源打爆)
熟练使用Helm、容器镜像管理、容器运行时问题处理,能独立维护生产集群
监控&可观测核心强项:熟练搭建/维护Prometheus+Grafana+AlertManager整套监控体系
会自定义指标、定制业务大盘、告警分级、降噪治理、抑制告警风暴
熟悉ELK/EFK日志收集、检索分析,了解链路追踪基础使用
自动化&工具能力:熟练Shell、Python写运维脚本
了解Ansible、CI/CD基础流程,能完成自动化部署、配置批量管理、运维流程标准化