本科及以上学历,熟悉主流GPU、NPU、TPU架构,熟悉各类算力的使用场景及各类差异,能够根据调优需求对算力配置进行优化
熟悉智算算力的组网优化、虚拟化、池化技术,对常见组网方案、池化方案有一定经验
熟悉主流服务器液冷技术及维护模式,对常见冷板式液冷主要核心部件、接线及冷夜循环等有实际运维经验
深入理解计算机系统结构,熟悉国产自主的服务器硬件,对服务器硬件性能指标及测试方法有较深认识
熟悉Linux操作系统部署交付,了解操作系统工作原理、网络原理、虚拟化工作原理
了解至少一种开源监控平台(zabbix或prometheus 等),熟悉服务器snmp、redfish、ipmi管理协议,熟练使用相关工具进行信息获取或管控
掌握至少一门编程语言(Python/Go),能够进行运维工具和平台开发,由工具或工具平台开发经验优先