1 容器运行时与镜像加速
优化 AI 训练/推理场景下的镜像分发、拉取与启动链路,降低冷启动时延
深入 Containerd / CRI 生态,构建面向大模型的镜像加速与预热机制
设计高效的镜像缓存与分发体系(如 P2P/分层分发/按需加载等)
2 内核与系统性能优化
面向 GPU 密集型负载,优化 Linux 内核(调度、内存、IO、cgroup 等)行为
解决混部场景下的资源竞争问题(CPU / 内存 / IO 抖动)
构建系统级 QoS 与隔离机制,提升多租户稳定性
3 高性能网络与通信优化
优化 AI 训练通信链路(TCP / RDMA / NCCL 等),提升网络利用率与稳定性
分析并解决大规模训练中的网络瓶颈(拥塞、丢包、拓扑不优等问题)
参与用户态网络(如 DPDK)或内核网络路径优化
4 GPU 利用率与调度协同优化
从运行时与系统层面提升 GPU 利用率(减少 idle、提升重叠度)
支持 GPU 混部、超卖、虚拟化等场景的稳定运行
与调度系统协同,优化资源分配与执行效率
5 稳定性与 ETTR 提升
构建训练任务全链路稳定性保障体系(failover、隔离、限流等)
降低训练中断与恢复成本,提升有效训练时长(ETTR)
建立系统级观测与诊断能力(性能分析、异常定位)