评测范式研究与落地:
①针对 OpenClaw 及 Claude Code 等主流 Agent,构建基于真实生产力场景,如自动化办公、复杂代码重构、多工具协同等的动态评测沙盒环境
②探索从“单轮对话”转向“长程任务”的评测机制,研究如何量化 Agent 的记忆一致性与环境感知力
高价值方案产出:
①设计并构建能反映用户体感的评测集,不仅关注 通过率,更深入拆解用户在交互过程中的使用体验
②建立 Agent 错误归因体系,针对 Agent 陷入死循环、幻觉指令、工具调用失败等典型场景进行深度诊断
未来形态探索:
①跟踪前沿 Agent 发展,研究在多智能体协同、自主进化等未来形态下的 Agent 形态和相应的评测基准
②利用 LLM/Agent-as-a-Judge 的方式,提升自动化评测的准确性与效率