中国平安的IaaS运维高级工程师薪资是多少？

该职位薪资范围为 15k–25k（人民币/月）。

IaaS运维高级工程师的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

中国平安的IaaS运维高级工程师有什么任职要求？

该职位要求本科学历及高级经验工作经验。

中国平安

IaaS运维高级工程师

立即应聘

IaaS运维高级工程师

发布于大约 11 小时前

普通员工/个人贡献者

深圳市

高级经验

全职员工

仅现场办公

本科

信息技术与基础设施

CUDA

数据中心运维

NVIDIA

GPU服务器

AI 估算 · 15k–25k

深圳高级运维工程师市场薪资范围，GPU技能加分，15-25k属合理区间。

职位详情

关于这个职位

该职位负责大规模物理服务器（含GPU服务器）集群的部署、监控、维护与优化，保障系统高可用性

主要工作包括GPU驱动与CUDA环境配置、自动化运维脚本开发、硬件故障处理及监控体系搭建，需具备5年以上运维经验和扎实的Linux功底

适合对GPU集群、AI基础设施感兴趣的技术专家

最低要求

本科及以上学历，计算机、通信、电子或相关专业

年以上服务器运维经验，具备大规模数据中心运维背景者优先

精通Linux系统的安装、配置、优化与故障排查

熟悉主流服务器品牌（如Dell、HPE、浪潮、华为）的硬件架构与管理工具（iDRAC、iLO、BMC等）

具备GPU服务器运维经验，熟悉NVIDIA GPU驱动、CUDA、NCCL、NVIDIA Driver、NVLink、GPUDirect等技术

熟练掌握Shell/Python脚本编程，能编写自动化运维脚本

熟悉Ansible、SaltStack、Puppet等配置管理工具者优先

熟悉监控系统（Prometheus + Grafana、Zabbix、ELK等）的搭建与使用

了解TCP/IP、VLAN、BGP等网络基础知识，能配合网络团队完成服务器网络配置

具备良好的问题分析与解决能力，能在高压环境下快速响应并处理紧急故障

具备较强的责任心、团队协作能力与文档编写能力

有AI平台、云计算、高性能计算（HPC）或大规模GPU集群运维经验者优先

工作职责

负责大规模物理服务器集群（含GPU服务器）的部署、配置、监控、维护与优化，保障系统高可用性与稳定性

主导GPU服务器（如NVIDIA A100/H100等）的部署、驱动安装、CUDA环境配置及性能调优，支持AI训练与推理业务

设计并实施服务器自动化运维方案，包括系统初始化、固件升级、配置管理、批量部署等，提升运维效率

负责服务器硬件故障诊断与处理，协调厂商进行维修与更换，建立完善的硬件生命周期管理机制

搭建和维护服务器监控体系（如Prometheus、Zabbix、Grafana等），实现对CPU、内存、磁盘、GPU利用率、温度、功耗等关键指标的实时监控与告警

配合DevOps团队实现CI/CD流程中对物理资源的自动化调度与管理

编写和维护技术文档，包括部署手册、故障处理SOP、应急预案等

参与机房基础设施规划，协助完成服务器上架、网络布线、电源管理等现场运维工作

跟踪GPU、AI计算、高性能计算（HPC）等领域的最新技术趋势，推动运维体系持续演进

AI 洞察

优缺点分析

优点

接触前沿GPU集群技术（A100/H100），积累AI基础设施经验，市场价值高
平安作为大型企业，平台稳定，技术体系完善，有较好的职业背书
职责涵盖自动化、监控、硬件等多方面，技能树提升全面
需高频现场处理硬件故障和紧急事件，工作强度大，可能涉及on-call
对Linux和GPU底层技术要求高，学习曲线陡峭
适合热爱底层技术、动手能力强、喜欢GPU与高性能计算领域的资深运维工程师

缺点 / 挑战

大规模数据中心运维压力较大，需快速响应高压环境

角色解读

可向AI基础设施架构师方向发展，专注于GPU集群优化与高性能计算
可转型为云计算平台运维专家，负责私有云或混合云架构
也可走向SRE或DevOps工程师，深化自动化与CI/CD能力
负责大规模物理服务器（含GPU服务器）的部署、配置、监控与维护，保障系统高可用性
主导GPU服务器的驱动安装、CUDA环境配置及性能调优，支撑AI训练与推理业务
设计自动化运维方案，编写Shell/Python脚本，提升运维效率
参与机房基础设施规划，处理硬件故障，搭建监控体系
精通Linux操作系统，具备5年以上服务器运维经验
熟悉GPU服务器运维，掌握NVIDIA驱动、CUDA、NCCL等技术
熟练掌握Shell和Python脚本编程，能开发自动化运维工具
熟悉监控系统（Prometheus+Grafana等）和配置管理工具（Ansible等）

申请策略

了解平安的AI业务方向（如金融科技、云服务），在面试中展示对业务的理解
准备一个完整的GPU集群运维项目案例，从部署到监控到故障处理
突出GPU服务器运维经验，包括具体型号（A100/H100）、CUDA环境配置及性能调优案例
强调自动化运维成果，如自动化脚本、配置管理工具的使用和效率提升数据
体现大规模数据中心背景，管理过的服务器规模和处理过的故障类型
深入学习NVIDIA GPU相关技术栈，包括CUDA编程、NCCL、GPUDirect等
加强Python编程能力，尤其是运维自动化框架如Ansible、SaltStack
熟悉Prometheus+Grafana监控体系，掌握告警规则和仪表盘设计

面试指南

针对故障处理问题，使用STAR法则（情境-任务-行动-结果），突出技术细节和解决思路
对于设计类问题，首先明确需求（规模、指标、告警），然后选型（Prometheus+ Grafana），最后说明分层架构和数据流
对于技术细节问题，直接回答关键步骤，并展示对底层原理的理解（如驱动、CUDA版本兼容性）
请描述你处理过最复杂的GPU服务器故障，以及解决过程
如何设计一个大规模服务器监控系统？请从技术选型、架构、告警策略等方面说明
解释CUDA环境配置的关键步骤和常见问题（如驱动版本兼容性）
如何在高压环境下快速响应并处理紧急故障？举例说明
谈谈你对IaaS运维自动化的理解，以及如何提升运维效率

职位点评

Watch Jobs

中国平安

IaaS运维高级工程师

立即应聘

IaaS运维高级工程师

发布于大约 11 小时前

普通员工/个人贡献者

深圳市

高级经验

全职员工

仅现场办公

本科

信息技术与基础设施

CUDA

数据中心运维

NVIDIA

GPU服务器

AI 估算 · 15k–25k

深圳高级运维工程师市场薪资范围，GPU技能加分，15-25k属合理区间。

职位详情

关于这个职位

该职位负责大规模物理服务器（含GPU服务器）集群的部署、监控、维护与优化，保障系统高可用性

主要工作包括GPU驱动与CUDA环境配置、自动化运维脚本开发、硬件故障处理及监控体系搭建，需具备5年以上运维经验和扎实的Linux功底

适合对GPU集群、AI基础设施感兴趣的技术专家

最低要求

本科及以上学历，计算机、通信、电子或相关专业

年以上服务器运维经验，具备大规模数据中心运维背景者优先

精通Linux系统的安装、配置、优化与故障排查

熟悉主流服务器品牌（如Dell、HPE、浪潮、华为）的硬件架构与管理工具（iDRAC、iLO、BMC等）

具备GPU服务器运维经验，熟悉NVIDIA GPU驱动、CUDA、NCCL、NVIDIA Driver、NVLink、GPUDirect等技术

熟练掌握Shell/Python脚本编程，能编写自动化运维脚本

熟悉Ansible、SaltStack、Puppet等配置管理工具者优先

熟悉监控系统（Prometheus + Grafana、Zabbix、ELK等）的搭建与使用

了解TCP/IP、VLAN、BGP等网络基础知识，能配合网络团队完成服务器网络配置

具备良好的问题分析与解决能力，能在高压环境下快速响应并处理紧急故障

具备较强的责任心、团队协作能力与文档编写能力

有AI平台、云计算、高性能计算（HPC）或大规模GPU集群运维经验者优先

工作职责

负责大规模物理服务器集群（含GPU服务器）的部署、配置、监控、维护与优化，保障系统高可用性与稳定性

主导GPU服务器（如NVIDIA A100/H100等）的部署、驱动安装、CUDA环境配置及性能调优，支持AI训练与推理业务

设计并实施服务器自动化运维方案，包括系统初始化、固件升级、配置管理、批量部署等，提升运维效率

负责服务器硬件故障诊断与处理，协调厂商进行维修与更换，建立完善的硬件生命周期管理机制

搭建和维护服务器监控体系（如Prometheus、Zabbix、Grafana等），实现对CPU、内存、磁盘、GPU利用率、温度、功耗等关键指标的实时监控与告警

配合DevOps团队实现CI/CD流程中对物理资源的自动化调度与管理

编写和维护技术文档，包括部署手册、故障处理SOP、应急预案等

参与机房基础设施规划，协助完成服务器上架、网络布线、电源管理等现场运维工作

跟踪GPU、AI计算、高性能计算（HPC）等领域的最新技术趋势，推动运维体系持续演进

AI 洞察

优缺点分析

优点

接触前沿GPU集群技术（A100/H100），积累AI基础设施经验，市场价值高
平安作为大型企业，平台稳定，技术体系完善，有较好的职业背书
职责涵盖自动化、监控、硬件等多方面，技能树提升全面
需高频现场处理硬件故障和紧急事件，工作强度大，可能涉及on-call
对Linux和GPU底层技术要求高，学习曲线陡峭
适合热爱底层技术、动手能力强、喜欢GPU与高性能计算领域的资深运维工程师

缺点 / 挑战

大规模数据中心运维压力较大，需快速响应高压环境

角色解读

可向AI基础设施架构师方向发展，专注于GPU集群优化与高性能计算
可转型为云计算平台运维专家，负责私有云或混合云架构
也可走向SRE或DevOps工程师，深化自动化与CI/CD能力
负责大规模物理服务器（含GPU服务器）的部署、配置、监控与维护，保障系统高可用性
主导GPU服务器的驱动安装、CUDA环境配置及性能调优，支撑AI训练与推理业务
设计自动化运维方案，编写Shell/Python脚本，提升运维效率
参与机房基础设施规划，处理硬件故障，搭建监控体系
精通Linux操作系统，具备5年以上服务器运维经验
熟悉GPU服务器运维，掌握NVIDIA驱动、CUDA、NCCL等技术
熟练掌握Shell和Python脚本编程，能开发自动化运维工具
熟悉监控系统（Prometheus+Grafana等）和配置管理工具（Ansible等）

申请策略

了解平安的AI业务方向（如金融科技、云服务），在面试中展示对业务的理解
准备一个完整的GPU集群运维项目案例，从部署到监控到故障处理
突出GPU服务器运维经验，包括具体型号（A100/H100）、CUDA环境配置及性能调优案例
强调自动化运维成果，如自动化脚本、配置管理工具的使用和效率提升数据
体现大规模数据中心背景，管理过的服务器规模和处理过的故障类型
深入学习NVIDIA GPU相关技术栈，包括CUDA编程、NCCL、GPUDirect等
加强Python编程能力，尤其是运维自动化框架如Ansible、SaltStack
熟悉Prometheus+Grafana监控体系，掌握告警规则和仪表盘设计

面试指南

针对故障处理问题，使用STAR法则（情境-任务-行动-结果），突出技术细节和解决思路
对于设计类问题，首先明确需求（规模、指标、告警），然后选型（Prometheus+ Grafana），最后说明分层架构和数据流
对于技术细节问题，直接回答关键步骤，并展示对底层原理的理解（如驱动、CUDA版本兼容性）
请描述你处理过最复杂的GPU服务器故障，以及解决过程
如何设计一个大规模服务器监控系统？请从技术选型、架构、告警策略等方面说明
解释CUDA环境配置的关键步骤和常见问题（如驱动版本兼容性）
如何在高压环境下快速响应并处理紧急故障？举例说明
谈谈你对IaaS运维自动化的理解，以及如何提升运维效率

职位点评

Watch Jobs

IaaS运维高级工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

IaaS运维高级工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

中国平安 的其他在招职位

IaaS运维工程师岗

企康健康专员

IaaS运维工程师

海外交付架构师

算法工程师（医疗服务AI产品）

相似职位推荐

Senior Analyst HR Technologies

Lead Field Application Engineer- Overseas

Industrial Engineering ES

AI projects in IE

Senior Solutions Architect, Amazon Supply Chain Services

中国平安 的其他在招职位

IaaS运维工程师岗

企康健康专员

IaaS运维工程师

海外交付架构师

算法工程师（医疗服务AI产品）

相似职位推荐

Senior Analyst HR Technologies

Lead Field Application Engineer- Overseas

Industrial Engineering ES

AI projects in IE

Senior Solutions Architect, Amazon Supply Chain Services

中国平安的其他在招职位

中国平安的其他在招职位