Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

DiDi logo
滴滴出行
CPG-AI集群工程师
立即应聘

CPG-AI集群工程师

发布于 大约 18 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
系统与安全工程
GPU
云计算
GO
NCCL
调度系统
AI集群
Rocev2
Nvidia Gpu Operator

AI 估算 · 30k–50k

资深AI集群工程师技能稀缺,北京大厂薪资较高,市场竞争力强,月薪区间3-5万。

职位详情

关于这个职位

该职位是滴滴出行基础产品事业部的资深AI集群工程师,负责构建和优化大规模GPU计算基础设施

你将参与从硬件选型到调度优化的全链路工作,设计GPU算力调度系统,管理Kubernetes集群,并推进国产AI芯片适配
这是一个深度参与AI基础设施核心建设的岗位,适合对大规模分布式系统和高性能计算有热情的工程师

最低要求

年以上Kubernetes生产环境经验,精通调度机制和节点管理

熟悉GPU资源管理(NVIDIA GPU Operator、GPU共享、拓扑感知调度)
熟练掌握Go/Python语言,有Kubernetes源码阅读或二次开发经验
具备大规模集群(百节点以上)运维和故障排查能力
熟悉Linux系统原理,具备内核参数调优和性能优化经验

工作职责

设计和实现GPU算力调度系统,优化资源利用率和作业调度效率

负责Kubernetes节点组件(kubelet、container runtime)的稳定性、性能优化
深度排查Kubernetes集群复杂问题
参与服务器硬件选型、测试和验收,重点优化GPU服务器性能
推进国产AI芯片的生态适配
建立集群故障感知召回体系,提高AI计算资源利用率,维护线上集群稳定性
扩展方向:参与AI集群网络优化(NCCL/RoCEv2),提升分布式训练通信效率
扩展方向:深入文件系统、缓存、镜像、cri细节,优化容器启动速度

优先资格

有混合云/多云环境GPU资源管理经验

熟悉RDMA/RoCE等高速网络技术
具备AI训练集群性能调优经验
有国产AI芯片适配经验
Kubernetes社区贡献者或相关开源项目经验

AI 洞察

优缺点分析

优点

  • 接触前沿的AI基础设施技术,如万卡级GPU集群和RDMA网络
  • 滴滴作为大厂,提供稳定的平台和丰富的资源,技术积累深厚
  • 职位涉及全链路工作,从硬件到调度,技能成长空间大
  • AI算力是当前热门方向,职业前景广阔
  • 技术栈较深,需要持续学习Kubernetes、GPU、网络等多领域知识
  • 适合对大规模基础设施和分布式系统有浓厚兴趣,具备Kubernetes深度经验和Go/Python开发能力的技术专家

缺点 / 挑战

  • 工作强度可能较高,需处理大规模集群的复杂故障和紧急问题
  • 对故障排查和性能调优能力要求极高,压力较大

角色解读

  • 可向AI基础设施架构师方向发展,负责更大规模的算力平台设计
  • 也可深入高性能计算领域,成为分布式系统专家
  • 或转向混合云/多云资源管理,拓展云原生架构能力
  • 设计和优化大规模GPU集群的调度系统,提高资源利用率和作业效率
  • 管理Kubernetes集群,保障节点组件稳定运行并排查复杂故障
  • 参与服务器硬件选型与性能测试,推进国产AI芯片适配
  • 优化集群网络和容器性能,提升分布式训练效率
  • 精通Kubernetes调度机制和节点管理,具备生产环境大规模集群运维经验
  • 深入掌握GPU资源管理技术,如NVIDIA GPU Operator和拓扑感知调度
  • 熟练使用Go/Python进行二次开发,能修改Kubernetes源码
  • 熟悉Linux内核调优、RDMA/RoCE高速网络技术

申请策略

  • 在简历中用量化数据展示集群规模、资源利用率提升等成果
  • 关注滴滴在AI基础设施方面的技术博客,面试时展现对业务的理解
  • 突出Kubernetes生产环境经验,特别是百节点以上集群的管理和故障排查案例
  • 强调GPU资源管理相关项目,如GPU Operator应用或调度优化
  • 展示Go/Python开发能力,包括Kubernetes二次开发或源码贡献
  • 提及任何RDMA、NCCL或AI训练性能调优经验
  • 深入学习Kubernetes调度源码和GPU虚拟化技术
  • 补充RDMA/RoCEv2网络知识和性能工具使用

面试指南

  • 针对调度类问题,可围绕资源拓扑、任务优先级、碎片化治理展开
  • 故障排查问题,强调监控、日志、告警体系及根因分析方法
  • 性能优化问题,从硬件、内核、网络到应用逐层分析
  • 描述你如何设计和优化一个Kubernetes集群的GPU调度策略
  • 如何处理Kubernetes节点故障导致的大量Pod迁移?
  • 你如何排查分布式训练中的网络瓶颈?
  • 谈谈你对NVIDIA GPU Operator的理解和使用经验
  • 你如何实现Kubernetes的二次开发?请举例

职位点评

72
综合评分

滴滴大厂、前沿AI基础设施、技术成长快,但现场办公且WLB不明确。

更适合这类人
适合追求技术深度和前沿领域、对薪资有要求但对WLB容忍度较高的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利80
成长发展90
工作生活50
使命价值70

薪资福利

80较高

滴滴作为上市大厂,薪资福利有竞争力,但JD未明确具体数字,推测偏高。

薪资信号未披露(AI估算:30K-50K/月)

成长发展

90较高

职位涉及前沿AI基础设施技术,全链路工作,成长空间大,但未明确提到晋升路径。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU、NVIDIA GPU Operator、NCCL、RoCEv2、AI芯片
业务类型profit_center

工作生活

50较低

北京现场办公,互联网公司可能加班,JD未提及WLB,平衡性一般。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值

70中等

AI基础设施支持核心业务,行业高速增长,但社会直接影响有限。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

滴滴出行 的其他在招职位

  • 平台营销策略运营

    滴滴出行 · 北京市
    AI 估算 · 25k-45k
  • 区域运营经理

    滴滴出行 · 杭州市
    AI 估算 · 15k-25k
  • 产品运营高级专家

    滴滴出行 · 北京市
    AI 估算 · 30k-50k
  • 资深数据分析师

    滴滴出行 · 北京市
    AI 估算 · 15k-30k
  • 增长策略运营专家

    滴滴出行 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • System Integration Engineer

    采埃孚 · 上海市
    AI 估算 · 18k-30k
  • 容器网络研发工程师-2027届

    稀宇科技 · 北京市
    AI 估算 · 20k-30k
  • 系统安全工程师_XC

    博世 · 上海市
    AI 估算 · 20k-35k
  • 整车功能测试工程师-实习-2027届

    小米 · 南京市
    AI 估算 · 4k-6k
  • 智驾安全与合规实习生

    小米 · 北京市
    AI 估算 · 4k-6k

滴滴出行 的其他在招职位

  • 平台营销策略运营

    滴滴出行 · 北京市
    AI 估算 · 25k-45k
  • 区域运营经理

    滴滴出行 · 杭州市
    AI 估算 · 15k-25k
  • 产品运营高级专家

    滴滴出行 · 北京市
    AI 估算 · 30k-50k
  • 资深数据分析师

    滴滴出行 · 北京市
    AI 估算 · 15k-30k
  • 增长策略运营专家

    滴滴出行 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • System Integration Engineer

    采埃孚 · 上海市
    AI 估算 · 18k-30k
  • 容器网络研发工程师-2027届

    稀宇科技 · 北京市
    AI 估算 · 20k-30k
  • 系统安全工程师_XC

    博世 · 上海市
    AI 估算 · 20k-35k
  • 整车功能测试工程师-实习-2027届

    小米 · 南京市
    AI 估算 · 4k-6k
  • 智驾安全与合规实习生

    小米 · 北京市
    AI 估算 · 4k-6k