对智能的未来充满好奇,并希望亲手参与定义它
不被今天 Agent 的能力边界束缚,而是不断定义新任务,帮助 Agent 突破边界
不把 evaluation 当作模型迭代的附属环节,而把它当作定义 Agent 时代智能边界的核心基础设施
有极强的动手能力,能够将不同的 harness,Task 以及 Eval 的方法组合与跑通端到端的评测流程,并且搭建过自己的 Eval System
不迷信权威,对公开 Benchmark、流行评测框架和漂亮数字保持天然警惕
能敏锐识别 reward hacking、evaluation leakage 以及“看起来变强了”的幻觉
有强观点,但愿意在严谨数据和实验事实面前快速修正自己
对“好任务”有极致品味,拒绝平庸的测试集,能够构造出真正逼近真实工作流的高价值任务
深知一个好的 eval task 不只是难,而是兼具 validity、reliability、coverage 与可解释性
对今天 Agent 的前沿趋势有强烈兴趣,包括 long-horizon task、computer-use、self-evolving agents
洞悉智能的根因,不满足于只看到分数上的提升,更关心 Agent 为什么成功、为什么失败
深入Agent Trace洞悉问题:是 context 管理问题、规划能力限制、工具调用失真,还是底层模型推理崩塌