通过 Large Scale RL Scaling 等手段,训练模型能够在多样化、有噪声的真实、全模态环境下,支持多样化的 Tools、Skills、Subagents 的稳定、正确、综合、可插拔式灵活使用,并能在一定限度内进行环境的修复与可靠改造
探索在易于模型理解使用的前提下,训练模型以更高信息密度的形态构建、维护和利用 memory,使模型能主动在重复性任务或封闭任务域中总结、提炼认知与经验,并进行有效复用,达到不断自进化的效果
训练模型的系统性长程任务高效处理能力,可以自主进行合理的任务拆解、分工
探索通过 agent swarm 或其他先进的 multi-agent system 进行系统性长程任务的并行执行和提效
探索多模态推理和多模态环境交互的范式,并基于此进行增强模型在复杂全模态环境下的任务完成能力