平台功能开发与优化:参与RDS管控平台的资源调度、任务编排、高可用架构设计等模块的开发,协助实现数据库集群的自动化管理
编写脚本或工具,优化数据库实例的部署、扩容、备份恢复等流程,提升运维效率
协助开发监控告警模块,实现数据库性能指标(如CPU、内存、磁盘IO)的实时采集与异常预警
云原生与分布式技术实践:学习并参与云原生数据库的容灾设计(如同城/异地容灾、全球数据库集群),支持高并发场景下的稳定性保障
探索容器化(如Kubernetes)在数据库管控中的应用,优化资源利用率和部署效率
日常运维与监控:负责RDS实例的日常巡检,包括数据库运行状态、存储空间、网络流量等指标的监控,及时处理告警
协助处理数据库故障(如连接异常、性能瓶颈),配合研发团队定位问题并优化解决方案
备份与恢复管理:制定并执行数据库备份策略,定期验证备份文件的完整性和可恢复性,确保数据安全
参与灾备演练,优化容灾切换流程,降低业务中断风险
知识库与协作:编写运维操作手册、故障处理指南等技术wiki,沉淀运维经验
协助测试团队进行系统集成测试,提供运维视角的反馈,优化产品易用性