【研究方向】
探索模型通过 RL Scaling 等方式使用成套工具解决复杂问题的行动和规划能力,包括 Human in the Loop 多轮交互下 Agent 基础建模的新方案、以及与复杂环境的交互学习能力
探索模型在 Non-Rule Based Outcome 场景下利用复杂信息进行有效 Reasoning 推理的范式,包括 Proactive Agent 的建模方案
探索研究更多内在奖励的机制,从而激发模型主动学习和自我更新的能力
探索构建长期记忆机制,为下一代高效的推理模型、长序列推理及建模提供基础