Agent能力评测体系设计:围绕 OpenClaw、Claude Code 等主流 Agent 框架,设计并落地适配长程任务场景的评测体系,确保 Agent 在真实约束下的交付稳定性与可度量性
评测流程与资源建设:设计 Coding、数据分析等核心生产力场景的端到端评测流程,搭建自动化评测数据生产与自动化 Rubrics 生成的标准化 pipeline
同时建设具备强技术背景的专家标注资源池,确保 Case 评审、效果判定等关键环节的专业度与一致性
数据闭环与模型策略驱动:将评测数据转化为模型迭代的策略输入,建立"评测→归因→策略建议→效果验证"的数据驱动闭环,推动 Agent 能力持续提升形成飞轮
前沿框架跟踪与评测策略适配:持续跟踪 OpenClaw、Claude Code 及行业前沿 Agent 框架的能力演进与架构变化,及时调整评测策略与度量标准,确保评测体系与 Agent 技术范式同步迭代