工作职责: 1. 7×24 监控值守,实时监控网络设备(路由器、交换机、防火墙)、链路质量(延迟、丢包、BGP 状态)及云网络服务(VPC、SLB、NAT)
2. 故障应急响应:快速定位并协同处理网络中断、DDoS 攻击、路由震荡等 P0/P1 级事件
3. 变更管理:执行标准化网络变更(如 ACL 更新、BGP 调整),遵循变更窗口与回滚预案
4. 自动化运维:使用 Python/Go 编写脚本,实现配置备份、健康检查、告警降噪等自动化任务
5. 容量规划:分析流量趋势,参与带宽扩容、CDN 节点部署等容量决策
6. 文档沉淀:维护网络拓扑图、应急预案、Runbook,推动知识共享
7. 跨团队协作:与 SRE、安全、研发团队紧密配合,优化端到端用户体验