数据效能研究(Data Efficiency):基于多模态大模型训练过程,分析不同模态数据的有效性、信息增益与贡献度
参与数据选择、数据蒸馏、难例挖掘等前沿技术探索,提升训练效率与模型表现
数据–模型协同设计(Co-Design):与模型团队协作,从训练曲线、梯度信号与分布特征中反推数据质量,研究分阶段(预训练/SFT/对齐)数据策略,设计高效的数据结构与采样机制
高质量数据构建(Data Quality Engineering):参与多模态数据 pipeline,包括自动标注、Caption 生成、数据去噪与一致性检查
探索弱监督、合成数据与模型 in-the-loop 的高质量数据生产方式
多模态数据分析(Multimodal Analytics):对训练数据进行覆盖度、偏差与难度分析,构建可视化与指标体系,为模型能力诊断与数据重构提供依据