京东的智算集群运维工程师薪资是多少？

该职位薪资范围为 35k–55k（人民币/月）。

智算集群运维工程师的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求本科学历及高级经验工作经验。

🤖 AI 估测：¥35K-55K

发布时间：5 天前

这是一个专注于AI算力基础设施的运维工程师岗位

你将负责京东云高性能GPU集群的规模化建设、日常运维与故障处置，确保AI训练与推理服务的稳定高效

工作涉及从硬件上架、网络配置到容器化部署的全流程，并需要构建自动化运维体系与监控能力

集群建设与交付：负责 GPU 算力集群的规模化建设，涵盖设备上架验收、系统初始化、固件升级、网络接入及容器化环境部署等全流程工作

制定并持续优化基础设施运维标准，包括硬件巡检 SOP、网络性能评估规范、存储容量规划指南等

可观测性与故障处置：建设集群一体化监控能力，覆盖 GPU 核心指标、高速互联网络链路质量、存储 IOPS 与延迟等多维度数据采集与可视化展示

承担核心时段应急响应职责，快速定位训练任务异常根因，实施故障隔离与恢复，配合相关团队完成事后复盘与改进

效率提升与资源治理：设计并维护自动化运维工具链，提升节点批量管理、故障自动巡检、资源交付时效等环节的自动化水平

跟踪集群资源使用效率，分析 GPU 利用率趋势、存储容量增长与网络带宽占用情况，为容量规划与成本控制提供数据支撑

经验背景：全日制本科及以上学历，计算机相关专业，5 年以上系统运维经验，其中至少 1年面向 GPU 集群或高性能计算（HPC）环境的运维经历

硬件与底层：深入理解 GPU 服务器体系结构，具备 NVIDIA卡的实际运维经验，能够独立完成硬件故障诊断与部件更换

高速网络：精通 RDMA 网络技术栈，具备 InfiniBand 或 RoCEv2 网络的实际运维能力，熟悉网络拓扑与流量调度，能够独立排查链路拥塞与性能瓶颈

分布式存储：熟悉大规模并行文件系统的日常运维与性能调优，具备存储集群健康管理及故障恢复经验

云原生与自动化：熟练掌握 Kubernetes 集群运维，能够基于 Ansible、Python、Shell 等工具构建自动化运维体系，具备运维工具或平台的开发能力

抗压与协作：具备良好的故障应急响应意识，能在高优先级场景下冷静判断、快速恢复

有跨团队协作经验，善于沉淀文档与分享经验

符合京东价值观：客户为先、创新、拼搏、担当、感恩、诚信