负责大模型专用存储系统的设计研发,围绕大模型训练/推理场景构建一体化分层存储架构,无缝对接大模型训推框架:
架构设计与场景适配:通过系统性逻辑分析拆解大模型存储瓶颈,结合训推场景的数据流特征,设计分层存储架构,解决数据流转效率与一致性问题
推理性能极致优化:面向推理场景,通过全链路IO瓶颈的逻辑分析,结合CXL、RDMA、GPU Direct等高速互联技术,设计极致IO路径,实现数据高效传输,持续优化TTFT、TBT、并行吞吐等核心性能指标,解决推理延迟与并发瓶颈
训练场景稳定性保障:面向训练场景,通过对万卡接入、爆发式流量的模式分析与逻辑建模,设计高可靠、高吞吐的存储服务方案,解决长周期训练中的数据稳定性与性能波动问题