大规模对齐与强化学习:研发并优化 SFT、RL(如GRPO 等)算法,构建高精度的 Reward Model,解决模型在复杂指令下的对齐问题
推理模型(Reasoning)优化:探索长链推理(CoT)、强化学习驱动的自反思与自进化机制,提升模型在的 System 2 思维能力
Agentic RL 与Agency:研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案,提升模型在开放环境中的任务拆解、工具调用及闭环执行能力
合成数据与模型进化:探索高质量合成数据的生成与过滤技术,实现模型能力的自我循环与持续进化