岗位职责 简介:真实世界中智能体应对长周期、多步骤、开放式的任务目标仍存在瓶颈,如多日旅行规划、专业领域深度研究等任务均呈现长交互轮次、多依赖子任务、全局约束严格的特征,当前智能体易出现上下文丢失、计划漂移、误差累积等问题,难以支撑超长轮次、超长时间的超长程任务执行
本课题研究方向包括但是不限于:
长程任务鲁棒规划:结合思维链(CoT)、思维树(ToT)等方法,实现复杂目标的可执行子任务拆解,兼顾子任务依赖关系与全局时间/成本约束
研究基于实时环境反馈的重规划机制,解决“模拟漂移”导致的计划与现实脱节问题,提升规划鲁棒性
设计高效的上下文管理与记忆压缩技术,避免长交互过程中关键信息遗忘,支撑超长序列任务的稳定执行
开放环境动态适应:探索解决真实世界中目标模糊、环境多变、突发干扰下的任务持续执行难题
高效学习范式:研究真实世界开放任务reward以及过程奖励设计方法,为长程任务中间步骤提供有效反馈,解决奖励稀疏问题
研究开放环境下的持续学习方法,避免“灾难性遗忘”,增强智能体在新场景、新任务中的泛化能力