本课题聚焦全模态Agent(GUI操作、代码生成、网页导航)在长程交互任务领域的算法研究
旨在解决Agent执行跨越数百至数千步的复杂任务时,传统强化学习仅依赖终态奖励信号,导致信用分配路径过长、梯度信号衰减,策略优化难以收敛的问题
研究方向包括:设计层次化时间抽象信用分配机制,缓解长程任务中flat policy的优化不稳定问题
设计验证跨模态可验证奖励机制,抑制Reward hacking对训练过程的干扰,实现全模态长程Agentic RL 稳定收敛
该研究成果将在WebArena、SWE-bench等主流评测基准上验证方法的有效性,应用于公司内社区生态Agent基座、AI跨模态深度搜索等业务场景,并集成至自研开源的强化学习引擎Relax,增强业界影响力