基础设施运维:负责游戏专用设备(打包 / 渲染 / 烘培机)、NAS 存储、AD 域控的日常管理,包括集群扩容、故障排查、性能调优,保障服务链路不中断
可靠性治理:定义并跟踪系统 SLO/SLI(如设备可用性、服务响应延迟),控制错误预算,通过混沌工程、灾备演练提升系统韧性,确保关键服务零故障
自动化与IaC:使用 Terraform/Ansible 等工具实现基础设施即代码,开发 Python/Go 自动化工具,覆盖部署、配置、巡检、故障自愈全流程,减少人工操作
监控与可观测性:Zabbix 监控体系,整合 Prometheus/Grafana/ELK 栈,实现从基础设施到业务层的全链路监控,确保故障及时发现,快速响应
架构与成本优化:参与 OpenStack/VM 虚拟化平台优化,主导容量规划与资源调度优化,在保障性能的前提下降低硬件与云资源成本
跨团队协同:与游戏团队,网络团队,IT团队紧密协作,提供系统层技术支持,输出运维解决方案,推动跨部门协作事项成功