负责稳定性体系与报警感知能力建设,搭建高可用的故障监控、告警收敛、根因定位体系,优化告警策略与感知链路,提升系统故障发现与响应效率,保障业务全链路稳定性
2、主导流量回放平台的研发与迭代,实现生产流量的精准录制、脱敏、回放,支撑业务变更、版本上线前的稳定性验证,解决复杂场景下的回归测试难题,提升测试效率与覆盖度
3、负责全链路压测平台的设计与开发,搭建分布式高并发压测能力,支持多场景、多协议的压测任务调度、流量模拟、容量评估,输出系统性能瓶颈与容量规划建议,保障大促 / 高流量场景下系统平稳运行
4、联动业务、架构、SRE 团队,深入理解业务链路与技术架构,落地稳定性保障最佳实践,推动压测、流量回放能力在业务侧的规模化应用,解决实际生产中的性能、稳定性问题
5、持续探索稳定性领域前沿技术,如混沌工程、智能告警、流量智能调度等,迭代优化平台能力,提升稳定性保障的自动化、智能化水平