工作职责: 你将深入探索大模型训练中“数据-模型-算力”的核心关系,致力于揭示数据学习的底层物理规律
具体工作内容包括:
数据学习效率机制研究
探索数据分布、数据密度与模型学习效果之间的映射关系,研究这一规律随模型规模(Model Size)及网络结构(Architecture)变化的演变趋势
设计量化指标,精准度量训练数据中不同部分的状态(如 Under-learned vs. Over-learned),并基于此探索相关的 Scaling Law,指导数据配比优化
数据效用度量与预测
构建数据总效用的评估体系,探索如何预测一份数据整体的潜在学习收益
研究模型训练动力学,判断训练特定阶段的数据效用饱和点(Saturation Point),评估继续训练的边际收益(ROI),为训练停止或数据切换提供理论依据