多模态数据管线建设:设计并实现面向大模型训练与推理的多模态数据处理与构建管线,覆盖图像、视频、音频、文本、3D 及多模态理解等数据类型,支撑预训练、后训练(SFT / RLHF / Preference)及评测数据构建
大规模数据工程与系统建设:构建高可靠、可扩展的数据处理系统,支持 TB / PB 级数据规模,负责批处理与流式处理任务的工程实现,参与或主导分布式并行计算(CPU / GPU 混合)的工程落地
数据质量与稳定性保障:建立数据校验与质量评估机制,覆盖数据完整性、一致性、分布异常与质量回归等场景,设计并推动数据处理链路的监控与异常治理
数据资产化与标准化建设:推动多模态数据结构的标准化设计,建设数据元信息、版本管理与可追溯机制,提升数据的可复用性与长期资产价值
跨团队协作与需求落地:与算法、模型、平台等团队深度协作,将模型需求与业务目标转化为可落地的数据工程方案,参与复杂数据问题的拆解、方案设计与推进落地