负责面向 Agent 的大模型后训练新范式研究与落地,围绕智能体在复杂环境中的规划、决策、工具使用与长时程任务执行能力,探索具备实际效果的新方法
负责 On-policy learning、Online learning 在 Agent 场景中的方法设计、实验验证与系统化推进,研究如何让模型在交互环境中实现持续试错、自我改进与稳定提升
负责智能体记忆机制相关研究,包括长期记忆、工作记忆、情景记忆、可检索记忆、记忆治理与记忆利用策略,提升模型在复杂任务、多轮交互与跨轮目标一致性上的表现
负责过程奖励模型(PRM)、过程监督、轨迹级反馈建模及相关可验证学习信号的研究,提升模型在中间推理步骤、行为序列与决策过程上的可优化性与可控性
推动 Agent 研究所需的数据、环境、评测与训练基础设施建设,包括但不限于交互环境设计、自动化数据构造、可验证评估、实验分析工具链与训练范式迭代
跟踪学界与业界前沿进展,围绕 Agent learning、RL for LLM、过程监督、记忆、环境可验证性等方向开展系统调研,形成高质量研究方案,并推动论文、技术报告、原型系统或核心能力建设
与模型、数据、系统、应用等相关团队协作,将研究成果沉淀为可复用的方法论与能力模块,支持更大规模的 Agent 能力演进