负责大数据、计算平台、云原生及分布式存储等核心系统的可靠性保障与稳定性建设,持续关注系统运行成本,推动降本增效
主导设计并落地面向大规模集群的自动化运维平台,构建覆盖全生命周期的自动化运营解决方案,提升运维效率与系统交付速度
建设并完善全链路监控体系,通过系统组件可用性与关键性能指标的实时监测,显著提升系统可观测性,赋能研发团队快速定位与排查故障
与系统开发团队深度协作,从架构设计、容量规划到发布上线的全流程中嵌入可靠性工程实践,保障系统SLA目标达成
基于真实业务场景,深入推进服务治理最佳实践,包括但不限于:关键链路性能瓶颈分析与调优、复杂业务问题的定位排障、系统高可用架构的改造与升级