IaaS运维高级工程师
🤖 AI 估测:¥25K-40K
发布时间:大约 16 小时前
ℹ️关于这个职位
该职位负责大规模物理服务器和GPU服务器的部署与运维,涉及自动化、监控和性能调优
你将主导AI训练与推理的底层基础设施,保障系统高可用性,适合深度技术控
✓工作职责
负责大规模物理服务器集群(含GPU服务器)的部署、配置、监控、维护与优化,保障系统高可用性与稳定性
2、主导GPU服务器(如NVIDIA A100/H100等)的部署、驱动安装、CUDA环境配置及性能调优,支持AI训练与推理业务
3、设计并实施服务器自动化运维方案,包括系统初始化、固件升级、配置管理、批量部署等,提升运维效率
4、负责服务器硬件故障诊断与处理,协调厂商进行维修与更换,建立完善的硬件生命周期管理机制
5、搭建和维护服务器监控体系(如Prometheus、Zabbix、Grafana等),实现对CPU、内存、磁盘、GPU利用率、温度、功耗等关键指标的实时监控与告警
6、配合DevOps团队实现CI/CD流程中对物理资源的自动化调度与管理
7、编写和维护技术文档,包括部署手册、故障处理SOP、应急预案等
8、参与机房基础设施规划,协助完成服务器上架、网络布线、电源管理等现场运维工作
9、跟踪GPU、AI计算、高性能计算(HPC)等领域的最新技术趋势,推动运维体系持续演进
⭐最低要求
本科及以上学历,计算机、通信、电子或相关专业
2、5年以上服务器运维经验,具备大规模数据中心运维背景者优先
3、精通Linux系统(如CentOS、Ubuntu、Rocky Linux)的安装、配置、优化与故障排查
4、熟悉主流服务器品牌的硬件架构与管理工具(iDRAC、iLO、BMC等)
5、具备GPU服务器运维经验,熟悉NVIDIA GPU驱动、CUDA、NCCL、NVIDIA Driver、NVLink、GPUDirect等技术
6、熟练掌握Shell/Python脚本编程,能编写自动化运维脚本
8、熟悉监控系统(Prometheus + Grafana、Zabbix、ELK等)的搭建与使用
9、了解TCP/IP、VLAN、BGP等网络基础知识,能配合网络团队完成服务器网络配置
👍优先资格
熟悉Ansible、SaltStack、Puppet等配置管理工具者优先