Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Deepseek logo
深度求索
AI平台运维工程师
立即应聘

AI平台运维工程师

发布于 大约 11 小时前

普通员工/个人贡献者

杭州市
初级经验
全职员工
仅现场办公
本科
信息技术与基础设施
分布式系统
GPU
容器
监控运维

AI 估算 · 15k–30k

杭州AI平台运维岗,B轮中大型企业,技术要求高,薪资具有竞争力,参考市场行情估算。

职位详情

关于这个职位

作为AI平台运维工程师,你将负责保障大规模Kubernetes集群和高性能分布式存储的稳定性,确保核心业务SLA达到99.99%+

同时参与可观测性体系建设、自动化工具开发和可靠性工程实践,推动平台效能提升
这是一个深度接触AI基础设施、同时兼顾运维与开发能力的技术岗位

最低要求

本科及以上学历,扎实的Linux、操作系统、网络基础

具备良好的 Bash/Python/Golang 等开发能力
熟悉 k8s 集群或熟悉分布式系统基础原理
熟悉 Prometheus、Grafana、Signoz 等各类监控和可观测性工具
具备较好的灵活性、学习迁移能力和对新技术的追求精神,能够从0-1快速学习掌握新技术并解决未遇到的问题

工作职责

平台稳定性保障:面向高并发、大规模业务的k8s集群或高性能分布式存储等平台基础设施提供专业的稳定性保障和全方位优化,支撑核心业务SLA达到 99.99%+

可观测性建设:负责持续完善和优化可观测体系,深入参与业务和平台层的监控建设、告警治理与排障工作,缩短 MTTR
自动化与效能提升:负责k8s集群或高性能分布式存储等内部工具链的开发与运维自动化建设,持续提升人效与交付效率
可靠性工程实践:推动混沌工程、容灾演练、多集群容灾多活等可靠性工程落地,持续验证和提升系统韧性

优先资格

熟悉容器内使用GPU/RMDA的配置方式、工作原理及相关问题诊断

熟悉业务应用管理和监控,有业务稳定性治理经验
有大规模(5000+ 节点)集群运维经历或200+节点分布式系统运维经历
了解LLM训练/推理工作流,参与过相关故障和性能问题排查

AI 洞察

优缺点分析

优点

  • 接触前沿AI基础设施(万卡集群、GPU),技术含金量高
  • 深度使用Kubernetes和云原生技术栈,跟上行业主流趋势
  • 公司处于AI赛道,发展前景广阔,能积累大规模系统运维经验
  • 工作内容兼顾开发与运维,提升全栈能力
  • 技术迭代快,要求持续学习和跟进新技术
  • 可能涉及On-Call和应急响应,工作时间有一定弹性要求
  • 适合热爱技术、乐于钻研底层原理、享受解决复杂系统问题的技术人员,尤其对AI基础设施和云原生领域有浓厚兴趣的求职者

缺点 / 挑战

  • 需要应对高并发和复杂环境,故障排查压力较大

角色解读

  • 从运维工程师向SRE或平台架构师发展,深入云计算和AI基础设施领域
  • 可转向AI平台开发或系统架构方向,参与更核心的底层设计
  • 积累大规模集群经验后,可成为技术专家或团队负责人,管理运维团队
  • 负责大规模Kubernetes集群和高性能分布式存储的稳定性保障,确保SLA达到99.99%+
  • 建设和优化可观测体系,包括监控、告警和排障,缩短故障恢复时间
  • 开发自动化工具和内部平台,提升运维效率和交付效率
  • 推动混沌工程、容灾演练等可靠性实践,增强系统韧性
  • 扎实的Linux、操作系统和网络基础,熟悉Kubernetes或分布式系统原理
  • 熟练掌握Python、Golang或Bash等编程语言,具备开发能力
  • 熟悉Prometheus、Grafana等监控和可观测性工具
  • 具备快速学习和解决复杂问题的能力,能够从0到1掌握新技术

申请策略

  • 了解公司业务方向(AGI),在面试中展示对AI基础设施的见解
  • 强调解决问题的能力和学习迁移能力,准备系统性思考的案例
  • 突出Kubernetes集群运维经验,特别是大规模集群管理案例
  • 展示自动化工具开发成果(如监控系统、运维平台)
  • 强调对Linux、网络和分布式系统的深入理解,附上具体性能优化或故障处理案例
  • 如有AI训练/推理相关运维经验,务必重点描述
  • 深入学习Kubernetes高级特性(如Operator、自定义调度)
  • 熟悉GPU虚拟化、RDMA等高性能计算技术

面试指南

  • STAR法则:情境-任务-行动-结果,清晰描述问题背景、你的角色、具体行动和量化结果
  • 系统化思维:从问题定义、影响范围、根因分析到解决方案和后续预防,展示全面思考
  • 强调协作:说明如何与开发、业务团队配合,推动问题彻底解决
  • 请描述一次你处理Kubernetes集群重大故障的经历,你是如何排查和解决的?
  • 如何设计一个高可用的监控告警系统?指标、告警规则和降噪策略如何考虑?
  • 谈谈你对SRE的理解,如何平衡稳定性和迭代速度?
  • 在大规模集群中,如何实现容灾多活?Chaos Engineering的实践方法?
  • 你对AI训练/推理工作流了解多少?运维这类工作负载有哪些挑战?

职位点评

69
综合评分

AI平台运维岗位,前沿技术栈,成长空间大,但工作强度和灵活性一般。

更适合这类人
最适合注重技术成长和职业发展的求职者,能接受一定程度的现场工作和不确定的工作节奏。
表现最好
成长发展
相对薄弱
工作生活
薪资福利60
成长发展90
工作生活50
使命价值75

薪资福利

60中等

薪资未在JD中明确,但基于B轮中大型企业和AI赛道,预计处于市场中等偏上水平,福利未提及,补偿性动机满足一般。

薪资信号未披露(AI估算:15K-30K/月)

成长发展

90较高

职位涉及Kubernetes、GPU等前沿技术,团队强调架构师文化和持续学习,成长空间大,发展性动机满足度高。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU、Prometheus、分布式系统、云原生
成长机会学习迁移能力、从0-1快速学习
业务类型ambiguous

工作生活

50较低

仅现场办公,未提及弹性或远程,可能涉及On-Call,生活化动机满足有限。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

75中等

公司致力于AGI,团队使命强调支撑AI进化,有一定社会意义,但岗位偏技术实现,意义感中等偏上。

行业发展高速增长赛道
社会影响中性/一般
使命信号守护算力的灯火、托举起智能进化的重力场、通向AGI彼岸的桥梁
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 后训练(数据/算法)研究员

    深度求索 · 杭州市
    AI 估算 · 30k-60k

相似职位推荐

  • IaaS运维高级工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师岗

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 海外交付架构师

    中国平安 · 香港
    AI 估算 · 60k-90k
  • 应用运维专家工程师

    中国平安 · 深圳市
    AI 估算 · 25k-45k

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 后训练(数据/算法)研究员

    深度求索 · 杭州市
    AI 估算 · 30k-60k

相似职位推荐

  • IaaS运维高级工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师岗

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 海外交付架构师

    中国平安 · 香港
    AI 估算 · 60k-90k
  • 应用运维专家工程师

    中国平安 · 深圳市
    AI 估算 · 25k-45k