负责 SHEIN的HBase集群的部署、配置、升级、扩容与容量规划,建立标准化运维流程与变更管理
HBase小组的日常管理、技术指导、对外沟通
构建与完善监控告警体系,覆盖 QPS/延迟、GC、Compaction/Merge、副本/分片健康、存储与网络 I/O 等关键指标,推进可观测性建设与告警降噪
高可用与容灾体系建设:多副本、跨 AZ/多集群容灾、备份与恢复演练(RPO/RTO 目标)、故障演练与容量压测
运维自动化与平台化:编写自动化脚本与工具(Shell/Python/Go),完善灰度发布、滚动升级、基线回归与发布验收
和业务沟通协作,推动HBase的规范和合理使用