云原生架构设计与保障:深入参与云原生基础设施及业务系统的架构设计、容量规划和上线评审,主导服务全生命周期管理,确保系统具备极致的高可用性、弹性和可持续演进能力
SRE AI Agent体系建设(核心亮点):探索并落地垂直于SRE场景的智能Agent
基于大模型(LLM)与RAG技术,架构并研发具备“感知-决策-执行”闭环能力的AI智能体(如:智能辅助排障、日志异常根因分析、容量智能预估、基于自然语言交互的自愈系统),推动传统运维向AIOps升级
构建高可用与自动化工程:负责大规模计算、存储及大数据等核心系统的稳定性
通过研发平台化工具,将变更、限流、容灾降级等应急手段高度代码化,消除无差别的重复劳动(Toil)
可观测性与数据驱动治理:围绕SLO/SLI构建完善的可观测性体系
主导复杂、高并发链路的性能瓶颈分析
基于海量监控数据与AI模型结合,实现故障的提前预测与精准告警
FinOps与成本极限优化:基于业务潮汐与使用场景,通过精细调度、弹性扩缩容、离在线混合部署等技术,持续优化超大规模集群的计算及存储成本