Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Moonshot AI logo
月之暗面
机器学习平台 SRE 工程师
立即应聘

机器学习平台 SRE 工程师

发布于 大约 14 小时前

普通员工/个人贡献者

深圳市
高级经验
全职员工
仅现场办公
学历未注明
GPU
SRE
GO
eBPF
云原生
NVIDIA Nsight
自动化运维
Operator
CNI
CSI

AI 估算 · 30k–50k

AI 赛道高级 SRE 稀缺,GPU 集群技术难度高,结合深圳市场薪资水平,月薪 30k-50k 合理。

职位详情

关于这个职位

该职位负责月之暗面大规模 GPU 训练与推理集群的稳定性保障,涉及 Kubernetes 及云原生系统的运维与平台化工具开发

您将处理集群级突发事件,保障业务 7×24 高可用运行
适合在大规模分布式系统或云原生基础设施领域有深厚经验的 SRE 工程师

最低要求

年以上大规模分布式系统或云原生基础设施 SRE 经验,有 1000+ 节点 Kubernetes 集群的运维或建设经历

了解 Kubernetes 及生态,理解 Operator、Device Plugin 或 CNI/CSI 插件的工作原理
熟悉 Prometheus / Grafana / Loki / ELK 等可观测体系,具备基于 eBPF 或 NVIDIA Nsight 进行性能剖析与故障定位的能力
具备 Go / Python / Rust 至少一门语言的开发能力,能独立完成自动化运维工具、Operator 或监控 Exporter 的开发
具备良好沟通合作能力和扎实的工程素养

工作职责

负责月之暗面大规模 GPU 训练与推理集群的稳定性保障,支撑业务 7×24 高可用运行

负责 Kubernetes 及云原生周边系统(监控、日志、镜像分发、存储)的运维保障与平台化工具开发以及疑难问题的排查解决
负责 GPU 节点硬件故障的自动化巡检、自愈体系与告警治理
参与 OnCall 值班,响应集群级突发事件(网络拥塞、调度热点、训练任务失败)

AI 洞察

优缺点分析

优点

  • AI 赛道前景广阔,GPU 集群是核心基础设施,技术壁垒高,经验稀缺
  • 接触前沿技术栈(eBPF、Operator、NVIDIA Nsight),技能积累快
  • 月之暗面作为 B 轮公司,技术氛围浓厚,可深度参与平台建设
  • GPU 集群故障类型复杂,需要快速学习硬件和网络相关知识

缺点 / 挑战

  • OnCall 值班压力较大,需要处理 7×24 高可用要求,工作强度较高
  • 要求 1000+ 节点经验,门槛较高,竞争激烈
  • 有丰富 Kubernetes 和基础设施经验、享受技术挑战、能承受一定 OnCall 压力、对 AI 基础设施充满热情的 SRE 工程师

角色解读

  • 深化 GPU 集群 SRE 领域,成为 AI 基础设施方向的专家
  • 向基础设施架构师或平台工程团队负责人发展
  • 积累大规模分布式系统经验,转型为 AI 系统工程师或 Cloud Architect
  • 保障大规模 GPU 训练与推理集群的稳定性,处理网络拥塞、调度热点等集群级突发事件
  • 负责 Kubernetes 及云原生系统的运维与平台化工具开发,开发自动化巡检和自愈工具
  • 参与 OnCall 值班,快速响应并解决生产环境中的故障与性能问题
  • 精通 Kubernetes 生态,熟悉 Operator、CNI/CSI 插件工作原理
  • 熟练使用 Prometheus/Grafana/Loki 等可观测工具,具备 eBPF 或 Nsight 性能定位能力
  • 至少精通 Go/Python/Rust 一门语言,能独立开发运维工具或 Operator

申请策略

  • 提前了解月之暗面的技术博客或开源项目,面试中展现对公司的认可
  • 准备一个大规模集群故障排查的故事,体现系统化分析和解决能力
  • 突出管理过的 Kubernetes 集群规模,强调 1000+ 节点经验
  • 展示具体的可观测体系建设案例,如 Prometheus 告警规则、Grafana 仪表盘
  • 列出自研的 Operator、自动化工具或监控 Exporter 项目,体现开发能力
  • 复习 eBPF 原理和 NVIDIA Nsight 工具的使用,准备性能调优场景
  • 强化 Go 或 Rust 编码能力,尤其是 Operator 开发框架(kubebuilder)的实战
  • 了解 GPU 硬件架构(如 NVLink、NVSwitch)和常见故障模式

面试指南

  • STAR 法则:描述场景(Situation)、任务(Task)、行动(Action)、结果(Result)
  • 对于设计类问题:先定义需求和目标,给出架构图(口述),再分模块说明,最后考虑容错和扩展
  • 请描述你管理过的最大 Kubernetes 集群,遇到过哪些挑战,如何解决?
  • 当 GPU 训练任务出现慢节点时,你会如何定位和修复?
  • 解释 eBPF 在可观测性中的应用,你用它解决过什么问题?
  • 设计一个自动化 GPU 硬件故障检测与自愈系统
  • 谈谈你对 Operator 的理解,如何编写一个自定义 Operator?
  • 复习 Kubernetes 核心组件原理,特别是调度器、控制器和 CNI

匹配度报告

69
综合匹配度

AI 基础设施核心岗位,技术前沿性强,薪资有竞争力,但 OnCall 压力大,WLB 一般。

适合人群
最看重技术成长和前沿挑战,愿意接受一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活40
使命价值70

薪资福利匹配

75中等

薪资水平在 AI 赛道具有竞争力,但未明确提及福利,且 B 轮公司稳定性相对大厂略低,整体补偿性动机满足较好。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

90较高

职位涉及前沿技术栈(eBPF、GPU、Kubernetes),技术深度和广度均很高,成长空间大,但未明确提及晋升通道。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU、eBPF、NVIDIA Nsight、Operator、云原生
业务类型profit_center

工作生活匹配

40较低

OnCall 值班和高可用要求意味着工作弹性较低,工作强度较大,生活化动机满足有限。

工作模式仅现场办公
办公地点未明确
加班情况JD含高强度暗示词

使命价值匹配

70中等

AI 基础设施对行业有重要支撑作用,属于高速增长赛道,技术贡献度高,但岗位本身偏运维,社会影响力一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

月之暗面 的其他在招职位

  • 体验运营实习生(支付与会员权益方向)

    月之暗面 · 北京市
    AI 估算 · 3k-6k
  • 机器学习平台工程师(Kubernetes / GPU 基础设施方向)

    月之暗面 · 北京市
    AI 估算 · 35k-55k
  • Kubernetes 调度器开发工程师

    月之暗面 · 北京市
    AI 估算 · 30k-50k
  • 海外算力采购经理

    月之暗面 · 北京市
    AI 估算 · 25k-45k
  • 视觉设计实习生(AI Native 方向 / 活动视觉 & 品牌周边)

    月之暗面 · 北京市
    AI 估算 · 4k-6k

相似职位推荐

  • 云资源管理经理/专家-Data

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 数据仓库资深开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 运维智能化应用研发

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 数据治理(业务)

    中国移动 · 长沙市
    AI 估算 · 4k-8k
  • 系统运维管理

    中国移动 · 长沙市
    AI 估算 · 2k-4k

月之暗面 的其他在招职位

  • 体验运营实习生(支付与会员权益方向)

    月之暗面 · 北京市
    AI 估算 · 3k-6k
  • 机器学习平台工程师(Kubernetes / GPU 基础设施方向)

    月之暗面 · 北京市
    AI 估算 · 35k-55k
  • Kubernetes 调度器开发工程师

    月之暗面 · 北京市
    AI 估算 · 30k-50k
  • 海外算力采购经理

    月之暗面 · 北京市
    AI 估算 · 25k-45k
  • 视觉设计实习生(AI Native 方向 / 活动视觉 & 品牌周边)

    月之暗面 · 北京市
    AI 估算 · 4k-6k

相似职位推荐

  • 云资源管理经理/专家-Data

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 数据仓库资深开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 运维智能化应用研发

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 数据治理(业务)

    中国移动 · 长沙市
    AI 估算 · 4k-8k
  • 系统运维管理

    中国移动 · 长沙市
    AI 估算 · 2k-4k