滴滴出行的AI集群工程师薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

AI集群工程师的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及高级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：8 天前

这是一个专注于AI基础设施底层性能优化的核心工程师岗位

你将负责滴滴出行AI集群的容器运行时、系统内核、高性能网络及GPU调度等关键组件的深度优化，以提升大规模AI训练与推理任务的效率、稳定性和资源利用率

工作涉及从底层系统到上层应用的全链路性能调优，是AI时代不可或缺的基础设施专家角色

1 容器运行时与镜像加速

优化 AI 训练/推理场景下的镜像分发、拉取与启动链路，降低冷启动时延

深入 Containerd / CRI 生态，构建面向大模型的镜像加速与预热机制

设计高效的镜像缓存与分发体系（如 P2P/分层分发/按需加载等）

2 内核与系统性能优化

面向 GPU 密集型负载，优化 Linux 内核（调度、内存、IO、cgroup 等）行为

解决混部场景下的资源竞争问题（CPU / 内存 / IO 抖动）

构建系统级 QoS 与隔离机制，提升多租户稳定性

3 高性能网络与通信优化

优化 AI 训练通信链路（TCP / RDMA / NCCL 等），提升网络利用率与稳定性

分析并解决大规模训练中的网络瓶颈（拥塞、丢包、拓扑不优等问题）

参与用户态网络（如 DPDK）或内核网络路径优化

4 GPU 利用率与调度协同优化

从运行时与系统层面提升 GPU 利用率（减少 idle、提升重叠度）

支持 GPU 混部、超卖、虚拟化等场景的稳定运行

与调度系统协同，优化资源分配与执行效率

5 稳定性与 ETTR 提升

构建训练任务全链路稳定性保障体系（failover、隔离、限流等）

降低训练中断与恢复成本，提升有效训练时长（ETTR）

建立系统级观测与诊断能力（性能分析、异常定位）

1 扎实的计算机基础，熟悉操作系统、网络、并发编程原理

2 熟悉 Linux 系统，具备内核或系统性能优化经验（调度/内存/IO 等方向之一）

3 熟悉容器技术栈（Docker / Containerd / Kubernetes），理解 CRI / CNI / CSI 机制

4 具备以下至少一个方向的深入经验：

高性能网络（TCP/IP、RDMA、DPDK 等）

AI 集群/分布式训练（NCCL、调度、拓扑等）

容器运行时/镜像系统

5 熟练使用 C/C++/Go 至少一门语言，有系统级开发经验

AI集群工程师

🤖 AI 估测：¥45K-80K

发布时间：8 天前