负责大规模物理服务器集群(含GPU服务器)的部署、配置、监控、维护与优化,保障系统高可用性与稳定性
主导GPU服务器(如NVIDIA A100/H100等)的部署、驱动安装、CUDA环境配置及性能调优,支持AI训练与推理业务 设计并实施服务器自动化运维方案,包括系统初始化、固件升级、配置管理、批量部署等,提升运维效率 负责服务器硬件故障诊断与处理,协调厂商进行维修与更换,建立完善的硬件生命周期管理机制 搭建和维护服务器监控体系(如Prometheus、Zabbix、Grafana等),实现对CPU、内存、磁盘、GPU利用率、温度、功耗等关键指标的实时监控与告警 配合DevOps团队实现CI/CD流程中对物理资源的自动化调度与管理 编写和维护技术文档,包括部署手册、故障处理SOP、应急预案等 参与机房基础设施规划,协助完成服务器上架、网络布线、电源管理等现场运维工作 跟踪GPU、AI计算、高性能计算(HPC)等领域的最新技术趋势,推动运维体系持续演进