具体地,我们关注如下研究方向:
全模态感知与GUI交互的统一建模:探索将视觉(屏幕截图、视频流)、听觉(语音指令、系统音频)、文本等多模态信号在统一架构下进行融合理解,使Agent能够基于多模态上下文进行精准的GUI元素定位、状态识别与操作决策,提升在复杂真实桌面/移动端环境下的任务完成能力
长时序跨应用任务规划与执行:研究Agent在跨小时级、多应用协同的长程数字任务中的持续意图保持、动态重规划与自主纠错能力,解决当前CUA在长交互链中出现的上下文丢失、计划漂移与误差累积问题,使Agent能够自主稳定地完成复杂的端到端工作流
实时流式感知与连续决策:从“处理静态截图”升级到“实时屏幕流+音频流”的连续感知模式,探索Agent在动态变化的数字环境中进行实时状态追踪与即时响应的能力,支撑直播监控、实时协作等需要持续交互的场景
全模态Agent的高效学习范式:探索面向全模态CUA场景的强化学习训练方法,包括但不限于:多模态环境下的奖励建模与过程奖励设计、GUI交互轨迹的大规模RL Scaling、基于环境反馈的自进化与持续学习机制,以及多模态推理与行动的联合优化策略