数据特征算法:负责海量文本&多模态数据(图像,视频,音频,3D)的内容理解(如分类标签体系、embedding表征、Caption生成等),质量检测(低质识别检测、优质美学评价等),去重/聚类分析,数据合成等算法
数据pipeline建设:负责数据采集、筛选清洗、标注与质量评估pipeline的建设
与模型业务团队紧密配合,充分分析挖掘数据资源,建立自动化数据处理流程与机制,支持模型持续迭代
数据实验分析:对模型训练数据进行详细分析,建立科学数据实验机制,识别样本不足、质量问题、配比不均衡等潜在问题,驱动数据优化提升数据覆盖、质量、多样性需求,最终带来大模型生成效果的持续提升