主导公司核心IT基础设施资源(服务器、存储、网络、云资源、容器集群等)的统筹运维管理,搭建标准化、规范化运维体系,保障业务系统稳定运行及高可用性(目标SLA 99.9%以上)
牵头复杂及重大运维故障的应急响应、根因分析与复盘优化,输出可复用的故障解决方案,持续降低故障发生率及影响范围
统筹IT资源容量规划与弹性扩缩容策略制定,精准预判业务资源需求,优化资源配置方案,提升资源利用率,实现运维成本精细化管控
推进运维自动化与智能化建设,运用Shell/Python等脚本语言及主流运维工具(如Prometheus、Grafana、Ansible),实现部署、巡检、监控、告警等核心运维流程自动化,提升运维效能
优化IT资源监控与告警体系,梳理核心监控指标、优化告警策略,实现异常行为早发现、早预警、早处置,缩短故障响应时间(MTTR)与恢复时间
承担中初级运维工程师的技术指导与能力赋能,沉淀运维最佳实践,支撑业务系统高效上线与迭代升级