保障全公司包括抖音、国际化短视频、广告等业务的数据稳定性,提升数据平台服务产品质量,保障业务的持续可用
基于运维经验、工具、平台对线上事故快速响应提升处理效率,同时优化运维体系,推动提升服务可靠性、可扩展性,保障系统SLA,同时推进运维自动化提效
通过持续的全方位运营,包括运维规范及最佳实践、监控及可用性指标、历史事故等,为数据高可用架构设计和选型提供指导,同时能够系统性排查架构风险隐患,推进改进项落地
参与大数据运维平台的研发、自动化建设与持续迭代,引导产品的运维模式向数字化,智能化方向发展演进