高阶推理能力提升:针对DeepResearch、CodeAgent等复杂推理任务开发专门的能力提升方案
探索长思维链推理机制,提升模型在Agent相关任务上的表现和泛化能力
复杂推理训练扩展性研究:探索模型通过长思维链推理在Agent相关任务上的效果提升
实现不同- Agent任务间的能力迁移和扩展
对齐训练范式探索:探索新型对齐训练范式,整合多类型监督信号进行训练优化
研究不同监督条件下的训练可扩展性,推动后训练效果向预训练scaling效果靠拢
对齐数据构造与优化:针对特定能力领域(数学、代码、复杂推理等)进行数据构造、筛选和优化
设计数据合成策略,控制对齐数据的质量和多样性