面向预训练、后训练数据管线,设计并实现高效的数据处理平台
单管线上,通过算子编排形成数据计算、存储、一体化符合大模型训练的管线平台,平台级别上,通过存储、计算优化实现平台产能提升
计算方向,提升平台级别计算效率,通过海量数据、任务、资源、合理化系统设计,抽象,对各个可编排算子的合并、拆分,达成易用性和计算性能平衡
对热点的算子,考虑单点优化以及公共服务的方式达到平台级性能提升
存储方向,构建服务于整个预训练和后训练的dataset,优化海量存储管理与访问方案(对象存储分层、冷热分层、缓存策略、数据压缩与列式格式优化、读写并发控制、成本与生命周期管理)
编写技术文档、最佳实践与性能评估报告,推动能力沉淀与工具链升级