负责整体抖音系业务的事故防控,围绕变更事件中心与发布质检,提升变更拦截的准确率与召回率,覆盖核心链路和关键基础设施与依赖,在多种业务与流量场景中沉淀可复用的防控策略与实践
推进根因分析能力与事件中心深度融合,构建统一的变更与故障关联分析视图,提升核心场景的根因识别准确率与召回能力,支撑复杂问题的快速定位与复盘
完善抖音App预案管理与快速止损工具体系,支持一键回滚与切流,沉淀标准化应急流程并提升跨团队协同效率,显著缩短MTTD/MTTR
负责并建立常态化微服务高可用治理,推广新一代过载保护策略,系统化优化接入层与服务间调用的重试与限流配置,推进端到端流量治理覆盖核心链路与关键依赖,持续提升架构韧性与承载能力