工作职责: 你将深入探索大模型训练中“数据-模型-算力”的核心关系,致力于揭示数据学习的底层物理规律
具体工作内容包括: 1. 数据学习效率机制研究 • 探索数据内容、数据分布与模型学习效果之间的映射关系
• 设计量化指标,度量训练数据的可学习性和学习阶段(如 Under-learned vs. Over-learned),并基于此优化数据清洗、分布构建、合成等流程
2. 数据效用度量与预测 • 构建数据总效用的评估体系,探索如何预测一份数据整体的潜在学习收益
• 研究模型训练动力学,判断训练特定阶段的数据效用饱和点,评估继续训练的边际收益(ROI),为训练停止或数据切换提供理论依据