智算集群运维工程师
🤖 AI 估测:¥35K-55K
发布时间:5 天前
ℹ️关于这个职位
这是一个专注于AI算力基础设施的运维工程师岗位
你将负责京东云高性能GPU集群的规模化建设、日常运维与故障处置,确保AI训练与推理服务的稳定高效
工作涉及从硬件上架、网络配置到容器化部署的全流程,并需要构建自动化运维体系与监控能力
✓工作职责
集群建设与交付:负责 GPU 算力集群的规模化建设,涵盖设备上架验收、系统初始化、固件升级、网络接入及容器化环境部署等全流程工作
制定并持续优化基础设施运维标准,包括硬件巡检 SOP、网络性能评估规范、存储容量规划指南等
可观测性与故障处置:建设集群一体化监控能力,覆盖 GPU 核心指标、高速互联网络链路质量、存储 IOPS 与延迟等多维度数据采集与可视化展示
承担核心时段应急响应职责,快速定位训练任务异常根因,实施故障隔离与恢复,配合相关团队完成事后复盘与改进
效率提升与资源治理:设计并维护自动化运维工具链,提升节点批量管理、故障自动巡检、资源交付时效等环节的自动化水平
跟踪集群资源使用效率,分析 GPU 利用率趋势、存储容量增长与网络带宽占用情况,为容量规划与成本控制提供数据支撑
⭐最低要求
经验背景:全日制本科及以上学历,计算机相关专业,5 年以上系统运维经验,其中至少 1年面向 GPU 集群或高性能计算(HPC)环境的运维经历
硬件与底层:深入理解 GPU 服务器体系结构,具备 NVIDIA卡的实际运维经验,能够独立完成硬件故障诊断与部件更换
高速网络:精通 RDMA 网络技术栈,具备 InfiniBand 或 RoCEv2 网络的实际运维能力,熟悉网络拓扑与流量调度,能够独立排查链路拥塞与性能瓶颈
分布式存储:熟悉大规模并行文件系统的日常运维与性能调优,具备存储集群健康管理及故障恢复经验
云原生与自动化:熟练掌握 Kubernetes 集群运维,能够基于 Ansible、Python、Shell 等工具构建自动化运维体系,具备运维工具或平台的开发能力
抗压与协作:具备良好的故障应急响应意识,能在高优先级场景下冷静判断、快速恢复
有跨团队协作经验,善于沉淀文档与分享经验
符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信