大规模高质量数据体系与合成数据建设
数据体系构建:建设 Trillion 级别的大规模跨模态数据处理与合成链路
负责从训练数据获取到配比建模的全流程优化
合成方法演进:探索大规模合成数据 (Synthetic Data) 与自蒸馏 (Self-distillation) 技术,制定合成数据应用策略
理论探索:研究Data Scaling Laws,解决数据扩展中的模型坍塌(Model Collapse)与多样性瓶颈问题,通过课程学习(Curriculum Learning)等训练策略,显著优化Token/FLOPs转化效率
长上下文 (Long Context) 与高效架构演进
长窗口突破: 持续Scaling Up模型的Context Length,优化超长上下文机制,重点提升LongCat基座模型在长上下文上的表现
架构优化: 探索并验证MoE(混合专家)、稀疏注意力(Sparse Attention)、线性注意力等模型结构
结合剪枝与稀疏化技术,协同优化训练与推理效率,提升超长上下文场景下的效率
上下文管理: 探索逐轮次和跨多轮次的上下文管理方法,并建立对应评测体系,从而减少冗余信息堆叠,实现高效思考和性能提升
多模态能力融合与 Agent 赋能
模态融合:探索多模态预训练新范式,突破模态融合瓶颈
利用多模态扩展定律指导数据与训练方案,提升模型在多模态交互场景下的原生能力
复杂场景落地:面向 Agent、具身智能等前沿场景,提升模型的多模态指令遵循与复杂任务规划能力
下一代训练范式与前沿技术探索
自进化机制:协同上下游团队,探索模型自进化(Self-evolution)机制,研究RL在Mid-training阶段的应用
能力扩展:研究推理阶段扩展(Test-time Scaling)及全模态链式思维(Omni-modal CoT),推动模型从单纯的“知识记忆”向“深度推理与问题解决”演进