主要研究内容包括但不限于:
1)多层次强化学习设计:研究 Hierarchical RL 与 LLM 的结合方法,构建能够处理抽象策略与具体执行的多层次决策系统
探索如何将复杂的系统任务分解为可管理的子任务,并能找到准确稠密的反馈信号,构建 Local RM 和 Global RM,进而完成可依赖和全局的优化
2)Reasoning 技术:针对不同的任务,能对 Reasoning 过程的 Token Budget、Reasoning 路径等,有稳定可控的方式,且能实现任务自适应
3)RL & Reasoning Scaling Law:探索高效的 RL Scaling 技术和 Test Time Scaling 技术,不断提升模型能力,且能兼顾探索利用和 Compute Cost