构建可持续的 On-call 与应急响应体系:重构现有报警体系,建立分级降噪机制(解决 P0 淹没问题),实现故障的分钟级发现与精准定位
建立标准化的 On-call 手册与应急流程(Runbook),引入 Chaos Engineering 主动暴露系统脆弱点
主导故障复盘(Postmortem),推动根因修复与改进措施落地,确保同类故障不重复发生
发布工程与变更风险管理:针对高频上线场景,设计并落地安全变更框架:灰度发布、自动回滚、变更可观测性,将“变更导致故障”的概率降至最低
建立变更窗口管理、自动化测试卡点与发布流水线优化,让研发能够“快且安全”地迭代
可观测性体系与 Telemetry 共建:与研发团队共建统一的 Telemetry 标准(Metrics/Logs/Traces),基于业务场景定义清晰的 SLO/SLI,建设符合业务特性的监控 Dashboard
治理现有指标债务,消除无效报警,构建从业务指标到基础设施指标的全链路可观测性
工程效率基建:用软件工程手段解决重复运维问题:开发内部平台或工具(如自动化诊断、容量巡检、配置管理),将高频人工操作转化为自助服务
维护基于 Kubernetes 的 PaaS 底座能力,持续优化资源利用率与成本效率
沉淀 SRE 最佳实践文档与工具库,推动可靠性文化在组织内的标准化
参与需求评审与架构设计,从可靠性、可维护性角度提出专业建议,帮助业务团队在早期规避技术债务