数据与训练方向:
大模型数据体系建设:构建多语言和多模态的数据处理流程和实验链路,优化数据的筛选与配比策略,探索动态数据调整、多阶段训练和课程学习等方法提升数据质量和多样性,优化大模型的训练效果
合成数据探索:探索大规模合成数据方法,应用于复杂任务、推理、代码和多模态等场景
制定合成数据在预训练、强化学习等不同训练阶段的应用策略,并深入研究数据扩展规模定律、数据多样性和模型坍塌等基础问题,推动数据驱动的性能突破
多模态学习与推理:探索多模态预训练的新范式,突破模态融合瓶颈
具体包括实现多模态能力的早期融合、理解与生成的统一建模,研究多模态扩展定律以指导数据与训练方案,扩展超长上下文机制以支持全模态场景等
同时,面向复杂的多模态推理与交互场景,探索多模态强化学习、多模态奖励模型、推理阶段扩展(test-time scaling)以及全模态链式思维(CoT)等方法,提升模型处理复杂任务和全模态交互的能力
高效模型架构设计:设计高效的大模型架构以提升训练和推理效率
探索 MoE(混合专家)、稀疏注意力、线性注意力等高效模型结构,以及模型编辑与合并等技术,研发能够显著提升推理速度和资源利用率的新型模型架构
推理效率与性能优化:推动算法与系统的协同优化,实现模型性能与效率的最大化平衡
基于对硬件计算潜力的深度挖掘,开发高效的模型推理方案和算法,包括模型压缩、剪枝、量化、稀疏化等,降低模型应用部署成本
后训练方向:
后训练数据与流程建设,从指令数据生产、合成、进化、配比等方面提升数据质量,优化指令微调、强化学习、奖励模型等训练pipeline,提升模型综合能力
后训练关键能力建设,包括但不限于优化模型创意生成、多语言、逻辑推理、复杂指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性,拓展模型能力边界
面向准确性、多模信息、最优路径等方向,探索奖励模型的新范式,构建统一模型学习环境,实现模型的价值对齐和能力对齐
面向推理规划能力、多智能体系统、模型自进化等方向,探索下一代强化学习算法,持续提升大模型的智能水平和在真实复杂场景效果
前沿探索:动态推理计算优化(Test-time Compute Optimization)、多智能体协同进化架构 、大规模强化学习系统优化等