Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Moonshot AI logo
月之暗面
机器学习平台工程师(Kubernetes / GPU 基础设施方向)
立即应聘

机器学习平台工程师(Kubernetes / GPU 基础设施方向)

发布于 大约 17 小时前

普通员工/个人贡献者

北京市 / 深圳市
中级经验
全职员工
仅现场办公
学历未注明
分布式系统
GPU
GO
MLOps
容器技术
eBPF
CNI
CSI

AI 估算 · 35k–55k

K8s+GPU基础设施方向人才稀缺,B轮中型公司为吸引人才提供有竞争力的薪酬,结合北京/深圳市场水平,月薪预计在35k-55k之间。

职位详情

关于这个职位

该职位负责设计并维护支撑大模型训练/推理的 Kubernetes 平台,包括集群生命周期管理、节点治理、网络/存储 CSI 插件及自动化运维体系

你需要深度优化容器镜像分发,将 Pod 启动时间压缩到秒级,并研发平台化工具链(CLI/SDK/Web Console)提升算法工程师效率
同时负责建设集群可观测性与成本治理体系,通过 eBPF/Prometheus 实现资源画像与异常诊断
这是一个深度参与 AI 基础设施前沿技术的机会

最低要求

计算机相关专业,3 年以上分布式系统或基础设施开发经验

精通 Go,具备扎实的操作系统、网络、存储基础
深度掌握 Kubernetes 生态(Scheduler/Operator/CRD/CSI/CNI),有 500+ 节点生产集群运维或二次开发经验
熟悉 Linux 容器技术(containerd/runc/cgroup/seccomp),具备 GPU 服务器集群运维经验

工作职责

设计并维护支撑大模型训练/推理的 Kubernetes 平台,负责集群生命周期管理、节点治理、网络/存储 CSI 插件及自动化运维体系

深度优化容器镜像分发,将千节点集群的 Pod 启动时间压缩到秒级
研发平台化工具链(CLI/SDK/Web Console),覆盖实验管理、模型管理、数据集编排、工作流流水线(MLOps),降低算法工程师的使用门槛
建设集群可观测性与成本治理体系,通过 eBPF/Prometheus 实现训练任务级资源画像与异常诊断

优先资格

有 K8s 调度器(Scheduler Framework / Volcano / Koordinator)源码级开发或社区贡献

熟悉 GPU 拓扑感知调度、MIG/MPS 虚拟化、显存/算力分时复用
具备大规模集群(1000+ 节点)自动化运维、故障自愈、多地域容灾经验

AI 洞察

优缺点分析

优点

  • 深耕 AI 基础设施前沿技术栈(K8s + GPU + MLOps),具备极强的技术溢价能力和行业稀缺性
  • 公司处于 B 轮融资阶段,早期加入有机会获得股权激励并影响技术架构决策
  • 对技术深度要求高,需要同时精通 K8s、容器、GPU 虚拟化、分布式系统等多个领域
  • 技术迭代迅速,需要持续跟进社区进展(如 K8s 新特性、GPU 调度方案),保持技术领先
  • 适合具备扎实分布式系统基础、热爱底层基础设施开发、对 AI Infra 有强烈兴趣的资深工程师

缺点 / 挑战

  • 参与大模型平台建设,接触亿级参数模型的训练与推理挑战,技术成长空间巨大
  • 大模型训练集群规模大、稳定性和效率要求极高,日常运维与故障处理压力较大

角色解读

  • 从 K8s 基础设施工程师向资深平台架构师发展,主导大规模集群设计与优化
  • 可转向 AI Infra 方向,成为大模型训练/推理平台的技术负责人
  • 技术管理路径:技术主管/经理,带领基础设施团队支撑业务高速迭代
  • 设计并维护支撑大模型训练/推理的 Kubernetes 平台,包括集群生命周期管理、节点治理以及网络/存储 CSI 插件开发
  • 深度优化容器镜像分发,实现千节点集群 Pod 启动时间秒级化
  • 研发平台化工具链(CLI/SDK/Web Console),覆盖实验管理、模型管理、MLOps 工作流,提升算法工程师效率
  • 建设集群可观测性与成本治理体系,通过 eBPF/Prometheus 进行训练任务级资源画像与异常诊断
  • 精通 Go 语言和分布式系统开发,具备扎实的操作系统、网络、存储基础
  • 深度掌握 Kubernetes 生态(Scheduler/Operator/CRD/CSI/CNI),有 500+ 节点生产集群运维经验
  • 熟悉 Linux 容器技术(containerd/runc/cgroup/seccomp)以及 GPU 服务器集群运维
  • 了解 eBPF、Prometheus 等可观测性工具,具备性能优化和故障排查能力

申请策略

  • 面试前深入研究该公司的大模型技术布局(如 Moonshot AI 的产品方向),体现对业务场景的理解
  • 准备一个你主导的 K8s 集群优化项目 case,从问题定义到效果量化完整呈现
  • 突出 K8s 生产集群运维或二次开发经验,特别是 500+ 节点规模的项目细节
  • 强调 Go 语言项目经历,尤其是网络、存储、调度等底层模块的研发
  • 展示 GPU 集群相关经验,如 GPU 拓扑感知调度、MIG/MPS 虚拟化等
  • 如有开源贡献或社区参与(如 K8s SIG、Volcano),务必明确列出
  • 系统学习 K8s 调度器框架(Scheduling Framework)和 Volcano/Koordinator 源码
  • 补充 eBPF 和可观测性工具(Prometheus/Grafana)的使用与二次开发能力

面试指南

  • 对于架构设计类问题,采用 STAR 法则(情境、任务、行动、结果),突出技术选型权衡和量化效果
  • 对于技术原理类问题,从底层机制出发,结合线上实践案例,展示深度理解
  • 对于优化类问题,先定义指标,再分析瓶颈,最后给出方案并验证结果
  • 请详细描述你之前维护的一个大规模 K8s 集群的架构,以及遇到的典型问题与解决方案
  • K8s 调度器如何实现自定义调度策略?请结合 Scheduler Framework 讲解
  • 如何优化 GPU 节点的利用率?谈谈你对 MIG、MPS、显存分时复用的理解
  • 请设计一个千节点集群的容器镜像分发方案,如何做到秒级 Pod 启动?
  • 你如何通过 eBPF 和 Prometheus 实现训练任务的资源画像和异常诊断?

匹配度报告

68
综合匹配度

前沿 AI Infra 岗位,技术栈稀缺,成长空间大,但工作强度不确定且缺乏远程灵活性。

适合人群
最适合追求技术成长、热衷于 AI 基础设施挑战的工程师,愿意在技术深度和职业发展上投入精力。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展90
工作生活40
使命价值75

薪资福利匹配

65中等

薪资方面,B 轮中型公司可能提供有竞争力的薪酬,但未明确提及具体数字或福利,补偿性动机满足程度中等偏上。

薪资信号未披露(AI估算:35K-55K/月)

成长发展匹配

90较高

该职位涉及前沿 AI Infra 技术栈(K8s+GPU+MLOps),技术挑战大,成长空间极佳,发展性动机满足程度很高。

技术前沿前沿/新兴技术
技术栈Kubernetes、Go、GPU、eBPF、Prometheus、MLOps、容器技术
业务类型profit_center

工作生活匹配

40较低

工作模式为仅现场办公,未提及远程或弹性工时,且北京/深圳通勤可能较长,生活化动机满足程度较低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

75中等

AI 大模型赛道高速增长,该职位直接支撑核心业务,有较强的技术价值,但社会影响力中性,意义感动机中等偏上。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

月之暗面 的其他在招职位

  • Kubernetes 调度器开发工程师

    月之暗面 · 北京市
    AI 估算 · 30k-50k
  • 海外算力采购经理

    月之暗面 · 北京市
    AI 估算 · 25k-45k
  • 视觉设计实习生(AI Native 方向 / 活动视觉 & 品牌周边)

    月之暗面 · 北京市
    AI 估算 · 4k-6k
  • 业务攻防技术专家

    月之暗面 · 北京市
    AI 估算 · 25k-45k
  • AI产运实习生

    月之暗面 · 上海市
    AI 估算 · 4k-8k

相似职位推荐

  • Senior Specialist

    友邦保险 · CN-M Plaza
    AI 估算 · 15k-25k
  • SRE工程师(运营规划方向)-TikTok(深圳/北京)

    字节跳动 · 深圳市
    AI 估算 · 20k-40k
  • 服务端研发专家-抖音文娱

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • SRE成本&资源管理专家-基础架构

    字节跳动 · 杭州市
    AI 估算 · 30k-55k
  • 暖通技术工程师-Data

    字节跳动 · 上海市
    AI 估算 · 15k-25k

月之暗面 的其他在招职位

  • Kubernetes 调度器开发工程师

    月之暗面 · 北京市
    AI 估算 · 30k-50k
  • 海外算力采购经理

    月之暗面 · 北京市
    AI 估算 · 25k-45k
  • 视觉设计实习生(AI Native 方向 / 活动视觉 & 品牌周边)

    月之暗面 · 北京市
    AI 估算 · 4k-6k
  • 业务攻防技术专家

    月之暗面 · 北京市
    AI 估算 · 25k-45k
  • AI产运实习生

    月之暗面 · 上海市
    AI 估算 · 4k-8k

相似职位推荐

  • Senior Specialist

    友邦保险 · CN-M Plaza
    AI 估算 · 15k-25k
  • SRE工程师(运营规划方向)-TikTok(深圳/北京)

    字节跳动 · 深圳市
    AI 估算 · 20k-40k
  • 服务端研发专家-抖音文娱

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • SRE成本&资源管理专家-基础架构

    字节跳动 · 杭州市
    AI 估算 · 30k-55k
  • 暖通技术工程师-Data

    字节跳动 · 上海市
    AI 估算 · 15k-25k