Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/月之暗面/Eval Product Engineer
Moonshot AI logo
M
月之暗面 (Moonshot AI)

职位信息

北京市
高级经验
全职员工
仅现场办公
学历未注明
普通员工/个人贡献者

标签

Failure Analysis工具调用Agent EvaluationBenchmark DesignComputer-UseEval SystemLong-Horizon Task前沿Ai智能体评测
💡

核心评价

前沿AI Agent评测定义者,技术成长与行业影响力极佳,工作地点与模式固定。

Eval Product Engineer

🤖 AI 估测:¥35K-60K

发布时间:6 天前

立即应聘

ℹ️关于这个职位

这是一个专注于AI智能体(Agent)评估体系建设的核心研发岗位
你将负责设计和构建前沿的评测基准(Benchmark)、自动化评估流水线以及面向真实复杂任务的动态测试场,以定义和衡量下一代AI智能体的能力边界
核心工作包括挑战Agent在高难度场景下的极限,并深入分析其成功与失败的根本原因

✓工作职责

你将直接定义:
针对高难度场景的 Frontier Benchmark,不断挑战与拓展 Agent 的能力边界,让用户第一次看到“Agent 也能做这个”的可能
Kimi 面向真实世界复杂任务的 Agent 评估体系与动态测试场
面向开放环境的任务体系,例如让 Agent 在一台完整电脑上自主使用浏览器、终端、Office、数据分析工具与各类软件完成复杂目标
覆盖高价值工作的任务集,例如信息搜集与研究、因子挖掘、金融市场建模、预测市场分析与多步骤商业决策
持续监控模型在长上下文、复杂工具调用、长程规划中的能力边界与回归风险的评估“雷达”
下一代 Agent 能力评估的自动化流水线,以及 scalable、verifiable 的任务构造方法

⭐最低要求

对智能的未来充满好奇,并希望亲手参与定义它
不被今天 Agent 的能力边界束缚,而是不断定义新任务,帮助 Agent 突破边界
不把 evaluation 当作模型迭代的附属环节,而把它当作定义 Agent 时代智能边界的核心基础设施
有极强的动手能力,能够将不同的 harness,Task 以及 Eval 的方法组合与跑通端到端的评测流程,并且搭建过自己的 Eval System
不迷信权威,对公开 Benchmark、流行评测框架和漂亮数字保持天然警惕
能敏锐识别 reward hacking、evaluation leakage 以及“看起来变强了”的幻觉
有强观点,但愿意在严谨数据和实验事实面前快速修正自己
对“好任务”有极致品味,拒绝平庸的测试集,能够构造出真正逼近真实工作流的高价值任务
深知一个好的 eval task 不只是难,而是兼具 validity、reliability、coverage 与可解释性
对今天 Agent 的前沿趋势有强烈兴趣,包括 long-horizon task、computer-use、self-evolving agents
洞悉智能的根因,不满足于只看到分数上的提升,更关心 Agent 为什么成功、为什么失败
深入Agent Trace洞悉问题:是 context 管理问题、规划能力限制、工具调用失真,还是底层模型推理崩塌

👍优先资格

加分项:你曾亲手重构过粗糙的 evaluation pipeline,让它更优雅、更可信、更高效
加分项:你能够把 failure analysis 反向转化为对 Prompt、Sandbox、Harness 或任务设计的具体改进建议
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

月之暗面 的其他在招职位

  • 资深系统开发工程师

    月之暗面

    北京市 · 仅现场办公

  • Infra 系统工程师 - 训练平台

    月之暗面

    北京市 · 仅现场办公

  • 资深后端工程师-商业化

    月之暗面

    北京市 · 仅现场办公

  • Agent Engineer / Agent 工程师

    月之暗面

    北京市 · 仅现场办公

  • API解决方案架构师

    月之暗面

    上海市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公