在以下一个或多个前沿方向进行深度攻关:
Reasoning & RL Scaling:探索 RL Scaling Law,在数学、编程、视觉推理等可验证任务上提升模型的可泛化推理能力
研发 Adaptive Thinking 技术,使模型具备动态调整思考深度的能力
Agentic Intelligence:构建多模态环境下的规划、工具调用、执行与反思闭环
研究 Multi-agent RL 以应对超长程任务
探索 Proactive AI,使模型具备主动交互与需求澄清能力
Self-Evolving & Intrinsic Motivation:突破人类监督的扩展性瓶颈,研究自我评估与修正机制
探索通过 Intrinsic Reward(内在奖励)替代外部反馈,实现 AI 的持续自我迭代
Lifelong Learning:赋予模型从长期交互中持续学习的 Meta 能力,提升模型在长程对话中的用户理解力与任务解决成功率