负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标
负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统
负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略
优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输
优化数据副本的存放策略,实现负载流量和存储数据的合理化分布
负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期
负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性
负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放