对齐数据优化:包括针对模型特定能力进行数据构造、筛选和优化,特定领域(如数学、代码、复杂推理)等数据筛选和合成
对齐数据的质量和多样性控制等
后训练扩展性:探索模型如何通过更长的思维链推理,在复杂任务上取得更优的效果,post-training阶段训练和推理的扩展能力
强化学习算法优化:算法可扩展性和稳定性提升后训练 scaling 性能
多目标奖励模型优化以及结合CoT和过程监督优化奖励模型
对齐范式探索:结合模型监督、self-improve等进行训练优化探索
交互任务复杂推理,长文本生成优化
强化学习框架效率优化:针对 LLM 强化学习训练需求,优化训练速度,开发和研究相关工具支持训练团队效率提升