端到端数据流水线设计:负责设计、构建与优化面向大模型训练的超大规模多模态数据端到端处理流水线,覆盖数据获取、清洗、标注、质量验证到最终训练集生成的全过程
高性能数据算子库开发:抽象和封装多模态数据(文本、图像、视频、音频)的通用处理逻辑,设计并实现高性能、可复用的数据算子库(如:图像解帧、语音识别、文本分词、质量过滤、数据增强等)
训练数据Dataloader研发:深入跟进模型训练阶段,基于处理好的高质量数据集,研发与优化与PyTorch等训练框架无缝集成的高性Dataloader,确保训练过程中数据读取与加载的效率,解决I/O瓶颈,极大提升GPU利用率
流水线编排与效率提升:研发灵活的配置化流水线引擎,支持原子算子的快速编排,并持续优化全链路的数据处理速度和资源效率,快速响应算法团队的数据需求
质量与评估体系:建立数据质量监控与评估体系,确保输出数据集的洁净度、一致性与有效性,并能量化数据质量对最终模型效果的影响