经验要求:资深互联网/云计算工作经验,具备ToB算力/AI基础设施售后支持经验者优先
项目管理:具备项目管理经验,包括商务条款制定、流程项目实施、成本核算、交付管理和项目运维等
GPU硬件能力(核心):
· 熟悉主流GPU架构、性能指标及物理特性
· 具备GPU故障诊断能力(如NVLink异常、显存报错、温度过高、PCie链路降速等),能配合IDC现场完成硬件更换与验证
· 了解GPU服务器整机配置(CPU-GPU互联拓扑、高速网卡、NVSwitch、供电散热等),能指导客户完成驱动、CUDA、NCCL等软件栈安装与调优
监控能力(核心):
· 熟悉GPU算力集群监控体系,能够部署或使用DCGM、Prometheus、Grafana等工具实时采集GPU利用率、显存、温度、功耗、NVLink带宽等关键指标
· 具备监控告警策略设计能力,能够针对算力掉线、慢节点、ECC错误等定义合理阈值和升级机制
具备较强客户导向思维,善于在技术沟通中发掘潜在算力需求或业务痛点
出色的服务意识、团队协作精神、语言表达与跨部门协调能力
能承受较大工作压力,保持高度责任心与主动优化意识
符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信