自动化研究场景下的大模型能力建设,提升模型在复杂任务分解、长程推理、研究规划、工具使用、代码生成与执行、证据整合与研究写作等方面的能力
长程任务中的上下文组织与记忆管理,设计优化 context scaling、context compression、memory selection、状态追踪与长期依赖建模,提升模型在复杂研究任务中的上下文利用效率与稳定性
自主研究任务相关环境与自动实验闭环建设,构建 search、browser、retrieval、code execution、verifier 等训练与评测环境,打通训练脚本迭代、实验编排、结果比对、版本保留/回滚与复现验证流程
训练策略、数据配方与反馈信号设计,围绕 SFT、RLVR等方法,结合数据构造、数据清洗、超参数优化以及 outcome-level / process-level 信号设计,提升模型在开放研究任务中的完成率、事实正确性和稳定性
面向真实 research 任务的评测体系与错误分析闭环建设,建立 benchmark、自动化评测指标,系统分析搜索遗漏、证据误判、上下文污染、推理漂移、错误归因与长链路失稳等问题,并推动针对性优化