负责网易云音乐、Loft、支付等核心业务的系统与平台运维,涵盖操作系统、容器、分布式存储(Ceph)等方向,保障大规模业务的稳定运行
运维智能化:设计并实现运维场景下的 AI Agent 系统,包括故障自愈 Agent、智能告警分析 Agent、变更风险评估 Agent 等,提升运维自动化与智能化水平
参与线上业务运维,对线上业务的稳定性负责,利用 LLM 技术辅助故障诊断、根因分析与复盘报告生成,缩短 MTTR
SDD(Spec-Driven Development)实践:运用 AI 辅助编写技术规范、运维手册与应急预案,构建可执行的运维知识库,推动文档即代码(Doc-as-Code)的智能化升级
研发和优化运维工具/平台,将 AI 能力与自动化能力赋能给业务和其他团队,建设智能运维(AIOps)平台,提升整体效率
Prompt 工程与 LLM 应用:针对运维场景优化大模型应用效果,构建领域专属的 Prompt 模板与知识库 RAG 系统
跟进业界前沿运维技术与云原生体系,探索 AI 在可观测性、容量管理、故障预测等场景的创新应用,不断提升系统可靠性与运维质量