负责字节跳动全球百万级服务器硬件监控体系及自动化运维体系的建设工作
深度参与线上新机型、新硬件及新场景的硬件监控方案制定与适配流程,精准定义并持续完善各类硬件故障判断标准,显著提升硬件监控的准确率与召回率,为服务器稳定运行保驾护航
针对线上复杂的服务器硬件疑难故障,依托服务器底层黑盒日志(如BMC日志、IPMI/SMBIOS数据、操作系统内核日志、硬件事件日志等)展开深度分析
协同内外部软硬件研发专家,实现疑难故障的精准根因定位
积极推动线上疑难故障自动化诊断分析能力建设,不断提高硬件故障监控诊断明确化率与报修维修一致率,有效降低故障返修率
负责线上服务器监控相关Oncall问题的快速排查、精准定位与深度分析,及时为团队提供专业答疑
建立并完善硬件故障知识库,系统沉淀典型故障案例及高效排查方法论,助力团队整体技术能力提升