Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Deepseek logo
深度求索
AI算力集群性能与可靠性工程师
立即应聘

AI算力集群性能与可靠性工程师

发布于 大约 11 小时前

普通员工/个人贡献者

杭州市
中级经验
全职员工
仅现场办公
本科
信息技术与基础设施
GPU
LLM
集群管理
RDMA
自动化运维

AI 估算 · 18k–30k

AI算力运维岗位稀缺,技能要求高,结合B轮公司和杭州薪资水平,月薪18-30K具有竞争力。

职位详情

关于这个职位

该职位负责AI超算集群的日常运维与性能优化,包括故障排查、硬件维护、监控告警体系建设和自动化工具开发

你将接触到前沿的GPU加速卡和RDMA网络,参与构建AGI时代的算力底座,保障大规模模型训练和推理的稳定运行

最低要求

本科及以上学历,计算机、电子、通信、自动化或相关专业优先

具备 Linux 服务器运维经验,熟悉集群环境下的系统管理、故障排查与性能分析
熟悉 GPU/AI 加速卡服务器、RDMA 网络等相关基础设施,有实际运维经验者优先
具备良好的脚本或自动化能力,能够使用 Shell、Python、LLM等工具提升运维效率
具备良好的沟通协作能力、责任心和现场问题推动能力,能在跨团队协同场景下高效推进问题解决

工作职责

负责AI超算集群中前沿加速卡、服务器、超节点等基础设施的日常运维开发工作,包括巡检、维修、故障定位与生命周期管理,缩短平均故障恢复时间(MTTR),保障集群持续稳定运行

负责新一代计算资源的快速交付与上线,完成节点的基线检查与性能调优、验证工作,确保资源能够高质量高性能投入生产
负责建设和优化面向AI超算集群的监控、告警与可观测性体系,实现集群健康状态的实时感知
构建自动化运维工具链,提升故障自愈率与运维效率,降低人工干预成本

优先资格

有大规模AI超算集群(千卡以上)运维经验

有机房交付、批量上架、集群 bring-up、验收测试经验
有 GPU 服务器压测、性能基线建立、异常案例归因和优化经验
具备监控体系建设经验(如Prometheus、Grafana等),有可观测性平台落地经验者优先
在 HPC 赛事(SC / ASC / ISC / PAC)中取得优异成绩

AI 洞察

优缺点分析

优点

  • 参与AGI时代核心基础设施建设,技术前沿且前景广阔
  • 公司处于B轮快速成长期,有机会接触千卡级大规模集群,经验稀缺
  • 技能可迁移性强,在AI算力领域持续增值
  • 硬件和网络技术迭代快,需要持续学习新知识
  • 跨团队协作场景多,对沟通和推动能力要求高

缺点 / 挑战

  • 集群7x24小时运行,可能需要on-call应对突发故障,工作压力大
  • 适合对AI基础设施充满热情、喜欢动手解决复杂硬件和系统问题的技术型人才,能承受一定压力并追求技术成长

角色解读

  • 从运维工程师成长为集群架构师或SRE专家,深入AI基础设施领域
  • 积累大规模集群管理经验后,可转向AI系统研发或数据中心管理
  • 参与前沿技术如液冷、高速互联的实践,成为算力系统专家
  • 负责AI超算集群的日常运维,包括故障排查、硬件维修、性能优化,确保集群高可用
  • 建设监控和告警体系,实时感知集群健康状态,快速响应异常
  • 开发自动化运维工具,提升故障自愈效率,减少人工干预
  • 参与新计算资源的交付上线,进行性能调优和验证,保障资源高质量投入生产
  • 精通Linux系统管理和故障排查,熟悉集群环境下的性能分析
  • 熟悉GPU/AI加速卡服务器、RDMA网络等基础设施的运维
  • 掌握Shell/Python脚本开发,能利用LLM工具提升运维效率
  • 具备良好的沟通协作能力和问题推动能力,适应跨团队协同

申请策略

  • 了解深度求索在AGI领域的技术方向,面试中表达对AI算力基础设施的兴趣
  • 准备一个实际的集群运维案例,用STAR法则清晰呈现问题、分析和解决过程
  • 突出Linux运维和集群管理经验,尤其是GPU集群的故障排查案例
  • 展示自动化脚本项目(如用Python/Shell实现批量操作或监控报警)
  • 提及参与过的HPC赛事或大规模集群交付经验
  • 补充学习Prometheus/Grafana监控体系搭建
  • 深入学习RDMA网络原理和性能优化
  • 熟悉常用GPU服务器(如NVIDIA DGX)的硬件架构和压测工具

面试指南

  • 采用STAR法则:情境(Situation)、任务(Task)、行动(Action)、结果(Result),结构化展示问题解决能力
  • 回答技术问题时,先明确原理,再结合实践经验,最后总结优化方向
  • 请描述一次你处理集群故障的经历,具体如何定位和解决?
  • GPU服务器常见的故障有哪些?如何快速排查?
  • 如何设计一个面向大规模AI集群的监控告警系统?
  • 你对RDMA网络的理解?在集群中如何优化其性能?
  • 如何实现自动化运维以降低MTTR?给一个具体例子
  • 复习Linux性能分析工具(如perf、top、netstat)和GPU监控工具(nvidia-smi)

职位点评

68
综合评分

AI算力运维岗位,技术前沿、发展空间大,但需现场办公且WLB一般。

更适合这类人
该职位最适合追求技术成长、愿意参与前沿AI基础设施建设的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利65
成长发展80
工作生活50
使命价值75

薪资福利

65中等

薪资未明确披露,但B轮AI公司资金充裕,预计薪资有竞争力;JD未提及具体福利。

薪资信号未披露(AI估算:18K-30K/月)

成长发展

80较高

技术栈前沿(GPU、RDMA、LLM),参与AGI基础设施落地,成长空间大;但JD未明确培训晋升机制。

技术前沿前沿/新兴技术
技术栈GPU、RDMA、LLM、Prometheus、Grafana
业务类型cost_center

工作生活

50较低

仅现场办公,未提及弹性工作或远程选项;杭州办公室位置未明确,可能需on-call。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

75中等

团队使命强调AGI基础设施,社会影响力高,行业高速增长,技术积极创新。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号AGI 时代、核心基础设施、稳定可靠的生产力
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 后训练(数据/算法)研究员

    深度求索 · 杭州市
    AI 估算 · 30k-60k

相似职位推荐

  • IaaS运维高级工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师岗

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 海外交付架构师

    中国平安 · 香港
    AI 估算 · 60k-90k
  • 应用运维专家工程师

    中国平安 · 深圳市
    AI 估算 · 25k-45k

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 后训练(数据/算法)研究员

    深度求索 · 杭州市
    AI 估算 · 30k-60k

相似职位推荐

  • IaaS运维高级工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师岗

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 海外交付架构师

    中国平安 · 香港
    AI 估算 · 60k-90k
  • 应用运维专家工程师

    中国平安 · 深圳市
    AI 估算 · 25k-45k