构建全景网络可观测性平台:打造覆盖物理和虚拟网络的Streaming Telemetry数据管道,整合GNMI、NETCONF、IPFIX/NetFlow、SNMP等多源数据,为AIOps提供高质量、高时效性的数据基石
研发智能诊断与根因分析系统:应用机器学习与深度学习算法,对海量网络指标、日志、事件进行异常检测、关联分析与智能降噪,快速定位从光模块、交换机硬件、协议邻居到应用层流量的全链路故障根因
探索LLM与Agent的创新应用: 1)智能运维助理:构建基于RAG(检索增强生成)的运维对话机器人,使其能理解自然语言问题,自动查询知识库与监控数据,提供精准的故障排查指引和网络状态报告
2)自动化修复与智能Runbook:训练运维Agent,使其能够安全、可控地调用网络工具与API
基于对故障场景的理解,自主生成、推荐甚至执行修复方案与应急预案(Runbook)
建设容量与风险预测能力:基于历史数据和业务增长模型,预测网络容量瓶颈、高风险链路与“亚健康”设备,驱动主动扩容和预防性维护
打造坚如磐石的工程体系:遵循最佳工程实践,设计和开发高可用、可扩展的AIOps平台与服务
保障从数据采集、模型训练、在线推理到自动化闭环全流程的稳定性和性能