Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

PINGAN logo
中国平安
IaaS运维高级工程师
立即应聘

IaaS运维高级工程师

发布于 大约 11 小时前

普通员工/个人贡献者

深圳市
高级经验
全职员工
仅现场办公
本科
信息技术与基础设施
CUDA
数据中心运维
NVIDIA
GPU服务器

AI 估算 · 15k–25k

深圳高级运维工程师市场薪资范围,GPU技能加分,15-25k属合理区间。

职位详情

关于这个职位

该职位负责大规模物理服务器(含GPU服务器)集群的部署、监控、维护与优化,保障系统高可用性

主要工作包括GPU驱动与CUDA环境配置、自动化运维脚本开发、硬件故障处理及监控体系搭建,需具备5年以上运维经验和扎实的Linux功底
适合对GPU集群、AI基础设施感兴趣的技术专家

最低要求

本科及以上学历,计算机、通信、电子或相关专业

年以上服务器运维经验,具备大规模数据中心运维背景者优先
精通Linux系统的安装、配置、优化与故障排查
熟悉主流服务器品牌(如Dell、HPE、浪潮、华为)的硬件架构与管理工具(iDRAC、iLO、BMC等)
具备GPU服务器运维经验,熟悉NVIDIA GPU驱动、CUDA、NCCL、NVIDIA Driver、NVLink、GPUDirect等技术
熟练掌握Shell/Python脚本编程,能编写自动化运维脚本
熟悉Ansible、SaltStack、Puppet等配置管理工具者优先
熟悉监控系统(Prometheus + Grafana、Zabbix、ELK等)的搭建与使用
了解TCP/IP、VLAN、BGP等网络基础知识,能配合网络团队完成服务器网络配置
具备良好的问题分析与解决能力,能在高压环境下快速响应并处理紧急故障
具备较强的责任心、团队协作能力与文档编写能力
有AI平台、云计算、高性能计算(HPC)或大规模GPU集群运维经验者优先

工作职责

负责大规模物理服务器集群(含GPU服务器)的部署、配置、监控、维护与优化,保障系统高可用性与稳定性

主导GPU服务器(如NVIDIA A100/H100等)的部署、驱动安装、CUDA环境配置及性能调优,支持AI训练与推理业务
设计并实施服务器自动化运维方案,包括系统初始化、固件升级、配置管理、批量部署等,提升运维效率
负责服务器硬件故障诊断与处理,协调厂商进行维修与更换,建立完善的硬件生命周期管理机制
搭建和维护服务器监控体系(如Prometheus、Zabbix、Grafana等),实现对CPU、内存、磁盘、GPU利用率、温度、功耗等关键指标的实时监控与告警
配合DevOps团队实现CI/CD流程中对物理资源的自动化调度与管理
编写和维护技术文档,包括部署手册、故障处理SOP、应急预案等
参与机房基础设施规划,协助完成服务器上架、网络布线、电源管理等现场运维工作
跟踪GPU、AI计算、高性能计算(HPC)等领域的最新技术趋势,推动运维体系持续演进

AI 洞察

优缺点分析

优点

  • 接触前沿GPU集群技术(A100/H100),积累AI基础设施经验,市场价值高
  • 平安作为大型企业,平台稳定,技术体系完善,有较好的职业背书
  • 职责涵盖自动化、监控、硬件等多方面,技能树提升全面
  • 需高频现场处理硬件故障和紧急事件,工作强度大,可能涉及on-call
  • 对Linux和GPU底层技术要求高,学习曲线陡峭
  • 适合热爱底层技术、动手能力强、喜欢GPU与高性能计算领域的资深运维工程师

缺点 / 挑战

  • 大规模数据中心运维压力较大,需快速响应高压环境

角色解读

  • 可向AI基础设施架构师方向发展,专注于GPU集群优化与高性能计算
  • 可转型为云计算平台运维专家,负责私有云或混合云架构
  • 也可走向SRE或DevOps工程师,深化自动化与CI/CD能力
  • 负责大规模物理服务器(含GPU服务器)的部署、配置、监控与维护,保障系统高可用性
  • 主导GPU服务器的驱动安装、CUDA环境配置及性能调优,支撑AI训练与推理业务
  • 设计自动化运维方案,编写Shell/Python脚本,提升运维效率
  • 参与机房基础设施规划,处理硬件故障,搭建监控体系
  • 精通Linux操作系统,具备5年以上服务器运维经验
  • 熟悉GPU服务器运维,掌握NVIDIA驱动、CUDA、NCCL等技术
  • 熟练掌握Shell和Python脚本编程,能开发自动化运维工具
  • 熟悉监控系统(Prometheus+Grafana等)和配置管理工具(Ansible等)

申请策略

  • 了解平安的AI业务方向(如金融科技、云服务),在面试中展示对业务的理解
  • 准备一个完整的GPU集群运维项目案例,从部署到监控到故障处理
  • 突出GPU服务器运维经验,包括具体型号(A100/H100)、CUDA环境配置及性能调优案例
  • 强调自动化运维成果,如自动化脚本、配置管理工具的使用和效率提升数据
  • 体现大规模数据中心背景,管理过的服务器规模和处理过的故障类型
  • 深入学习NVIDIA GPU相关技术栈,包括CUDA编程、NCCL、GPUDirect等
  • 加强Python编程能力,尤其是运维自动化框架如Ansible、SaltStack
  • 熟悉Prometheus+Grafana监控体系,掌握告警规则和仪表盘设计

面试指南

  • 针对故障处理问题,使用STAR法则(情境-任务-行动-结果),突出技术细节和解决思路
  • 对于设计类问题,首先明确需求(规模、指标、告警),然后选型(Prometheus+ Grafana),最后说明分层架构和数据流
  • 对于技术细节问题,直接回答关键步骤,并展示对底层原理的理解(如驱动、CUDA版本兼容性)
  • 请描述你处理过最复杂的GPU服务器故障,以及解决过程
  • 如何设计一个大规模服务器监控系统?请从技术选型、架构、告警策略等方面说明
  • 解释CUDA环境配置的关键步骤和常见问题(如驱动版本兼容性)
  • 如何在高压环境下快速响应并处理紧急故障?举例说明
  • 谈谈你对IaaS运维自动化的理解,以及如何提升运维效率

职位点评

Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

中国平安 的其他在招职位

  • IaaS运维工程师岗

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 企康健康专员

    中国平安 · 温州市
    AI 估算 · 4k-6k
  • IaaS运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 海外交付架构师

    中国平安 · 香港
    AI 估算 · 60k-90k
  • 算法工程师(医疗服务AI产品)

    中国平安 · 深圳市
    AI 估算 · 25k-40k

相似职位推荐

  • Senior Analyst HR Technologies

    伊顿中国 · 苏州市
    AI 估算 · 15k-22k
  • Lead Field Application Engineer- Overseas

    伊顿中国 · 深圳市
    AI 估算 · 25k-45k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-25k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-6k
  • Senior Solutions Architect, Amazon Supply Chain Services

    亚马逊 · 上海市
    AI 估算 · 40k-70k

中国平安 的其他在招职位

  • IaaS运维工程师岗

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 企康健康专员

    中国平安 · 温州市
    AI 估算 · 4k-6k
  • IaaS运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 海外交付架构师

    中国平安 · 香港
    AI 估算 · 60k-90k
  • 算法工程师(医疗服务AI产品)

    中国平安 · 深圳市
    AI 估算 · 25k-40k

相似职位推荐

  • Senior Analyst HR Technologies

    伊顿中国 · 苏州市
    AI 估算 · 15k-22k
  • Lead Field Application Engineer- Overseas

    伊顿中国 · 深圳市
    AI 估算 · 25k-45k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-25k
  • AI projects in IE

    德科斯米尔 · 沈阳市
    AI 估算 · 3k-6k
  • Senior Solutions Architect, Amazon Supply Chain Services

    亚马逊 · 上海市
    AI 估算 · 40k-70k