月之暗面的Eval Product Engineer薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

Eval Product Engineer的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及高级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：6 天前

这是一个专注于AI智能体（Agent）评估体系建设的核心研发岗位

你将负责设计和构建前沿的评测基准（Benchmark）、自动化评估流水线以及面向真实复杂任务的动态测试场，以定义和衡量下一代AI智能体的能力边界

核心工作包括挑战Agent在高难度场景下的极限，并深入分析其成功与失败的根本原因

你将直接定义：

针对高难度场景的 Frontier Benchmark，不断挑战与拓展 Agent 的能力边界，让用户第一次看到“Agent 也能做这个”的可能

Kimi 面向真实世界复杂任务的 Agent 评估体系与动态测试场

面向开放环境的任务体系，例如让 Agent 在一台完整电脑上自主使用浏览器、终端、Office、数据分析工具与各类软件完成复杂目标

覆盖高价值工作的任务集，例如信息搜集与研究、因子挖掘、金融市场建模、预测市场分析与多步骤商业决策

持续监控模型在长上下文、复杂工具调用、长程规划中的能力边界与回归风险的评估“雷达”

下一代 Agent 能力评估的自动化流水线，以及 scalable、verifiable 的任务构造方法

对智能的未来充满好奇，并希望亲手参与定义它

不被今天 Agent 的能力边界束缚，而是不断定义新任务，帮助 Agent 突破边界

不把 evaluation 当作模型迭代的附属环节，而把它当作定义 Agent 时代智能边界的核心基础设施

有极强的动手能力，能够将不同的 harness，Task 以及 Eval 的方法组合与跑通端到端的评测流程，并且搭建过自己的 Eval System

不迷信权威，对公开 Benchmark、流行评测框架和漂亮数字保持天然警惕

能敏锐识别 reward hacking、evaluation leakage 以及“看起来变强了”的幻觉

有强观点，但愿意在严谨数据和实验事实面前快速修正自己

对“好任务”有极致品味，拒绝平庸的测试集，能够构造出真正逼近真实工作流的高价值任务

深知一个好的 eval task 不只是难，而是兼具 validity、reliability、coverage 与可解释性

对今天 Agent 的前沿趋势有强烈兴趣，包括 long-horizon task、computer-use、self-evolving agents

洞悉智能的根因，不满足于只看到分数上的提升，更关心 Agent 为什么成功、为什么失败

深入Agent Trace洞悉问题：是 context 管理问题、规划能力限制、工具调用失真，还是底层模型推理崩塌

加分项：你曾亲手重构过粗糙的 evaluation pipeline，让它更优雅、更可信、更高效

加分项：你能够把 failure analysis 反向转化为对 Prompt、Sandbox、Harness 或任务设计的具体改进建议

Eval Product Engineer

🤖 AI 估测：¥35K-60K

发布时间：6 天前