Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Moonshot AI logo
月之暗面
评估系统工程师(Eval Engineer)
立即应聘

评估系统工程师(Eval Engineer)

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
软件工程
分布式系统
模型评估
数据管道
LLM
MCP
评估系统
Agent Loop

AI 估算 · 25k–45k

AI评估工程岗需LLM和系统经验,B轮公司有期权,薪资具竞争力,中位数约35k/月。

职位详情

关于这个职位

职位负责构建和维护模型评估系统,确保模型在迭代和发布时的质量与一致性

你需要与产品和研究团队紧密合作,搭建一体化评估平台,优化线上监控,并推动难以衡量指标的度量
这是一个技术深度高、节奏快的AI核心岗位

最低要求

年以上软件工程经验,精通 Python 编程,包括生产或研究基础设施,具备构建或运维分布式系统、数据管道或其他需要大规模可靠性的基础设施的经验

与研究与产品团队协作,具备清晰的书面和口头沟通能力,尤其是在向非专业人士解释技术结果
同时在训练与模型迭代中,可以胜任高速的模型迭代节奏
熟悉 LLM 以及 Agent 有关的核心概念和技术原理,包括 Agent Loop、Skills、MCP、Memory、Multi-Agent 等相关知识
对于评估和常见的评估 harness/Scaffold 有深入的研究

工作职责

构建一体化评估系统:* 定义并且持续改进 Agent Eval Platform,维护 Internal Benchmark,支持在不同的 harness 以及 Eval 策略下灵活评估,优化线上监控与评估体系,打通在线评估与离线评估的闭环

打通训练与生产的评估:* 构建和维护全面的评估套件,以确保模型质量和产品发布及更新的一致性
团队协作:* 指导产品工程师掌握快速工程最佳实践,并帮助团队构建他们的第一个评估
与公司内其他评估团队建立持久的合作关系,制定共享路线图,并避免在共享评估基础设施上出现 tragedy-of-the-commons
快速迭代:* 在快节奏的环境中工作,模型功能每天都在进步,需要快速适应和创造性地解决问题
通过基建支持拓展评估维度:* 推动团队去衡量那些难以衡量但是对于业务至关重要的指标——例如行为偏差、Tokens 效率、资源利用率

优先资格

具备从零开始搭建一套新的评估体系,用于测试特定的 Agent 能力——从定义任务、构建数据集、实现评分机制、根据已知信号进行验证,并最终交付一个清晰易懂的仪表盘,展示评估结果

熟悉主流 Agent 评测 Benchmark 如 Terminal bench、OS World、Apex Agent 的相关评测框架以及题目标准格式,了解如何在评估系统中解耦模型,Harness,Tasks 以及 Eval

AI 洞察

优缺点分析

优点

  • 处于AI最前沿,接触LLM和Agent最新评估方法论
  • 公司B轮阶段,成长快,有机会从0到1搭建系统
  • 核心岗位,对产品质量影响大,成就感强
  • 团队协作密集,可锻炼跨部门沟通和指导能力
  • 工作节奏快,模型迭代频繁,需快速适应变化
  • 评估体系复杂度高,需要权衡多维度指标
  • 技术深度要求高,需持续学习最新Benchmark和框架
  • 这个职位适合技术扎实、对AI评估有热情,能适应快节奏并善于解决复杂问题的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 成为AI评估领域的专家,主导公司评估体系架构
  • 向AI基建负责人发展,或转型至模型训练/产品方向
  • 在快速迭代中积累前沿技术经验,有机会晋升为技术Leader
  • 构建和维护一体化的Agent评估平台,支持多种评估策略和Benchmark
  • 打通线上与离线评估,建立监控体系,确保模型迭代质量
  • 指导产品工程师掌握评估最佳实践,与内部团队协作制定共享评估基础设施
  • 推动衡量行为偏差、Tokens效率等关键但难以直接量化的指标
  • 精通Python,有分布式系统或数据管道等大规模基础设施经验
  • 深入理解LLM和Agent核心概念(Agent Loop、MCP、Memory等)
  • 熟悉常见评估框架和Harness,能搭建完整的评估流程
  • 优秀的跨团队沟通能力,能将技术结果清晰传达给非技术同事

申请策略

  • 在简历和面试中展示对评估体系整体架构的思考,而不仅是单一技能
  • 关注月之暗面Kimi的产品动态,理解其模型迭代需求,体现业务视角
  • 突出Python和分布式系统的实际项目经验,尤其是高可靠基础设施
  • 展示与LLM/Agent相关的评估或开发经历,特别是使用过Harness或Benchmark
  • 强调跨团队协作案例,以及将复杂技术解释给非专业人员的经验
  • 如果有从0搭建评估体系的经历,务必详细描述
  • 深入学习Agent主流Benchmark(Terminal bench, OS World等)的框架和格式
  • 实践MCP、Agent Loop等概念,通过开源项目提升理解

面试指南

  • 先明确评估目标,再分解为任务定义、数据集、评分机制、验证闭环
  • 使用结构化思维:区分离线与在线、区分模型与Harness,确保可复用
  • 强调沟通与协作:与产品、研究团队对齐标准,避免重复建设
  • 如何设计一个评估系统来比较两个模型版本在Agent任务上的表现?
  • 请举例说明你如何从零搭建一个评估流程,包括数据、评分、验证
  • 解释LLM Agent中的MCP、Memory、Multi-Agent是如何协同工作的?
  • 如何处理评估指标之间的冲突(如准确性与Tokens效率)?
  • 假如产品团队要求快速上线一个新功能,你如何平衡评估充分性与迭代速度?

匹配度报告

64
综合匹配度

前沿AI评估系统岗,技术成长空间大,薪资面议,节奏快。

适合人群
该职位最适合追求技术成长和前沿领域、能接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利60
成长发展85
工作生活40
使命价值70

薪资福利匹配

60中等

职位未披露薪资,但AI领域通常薪资较高,且B轮公司可能有期权,但稳定性一般。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

85较高

该职位涉及LLM和Agent前沿技术,能深度参与评估体系构建,成长空间大,但未明确提及晋升路径。

技术前沿前沿/新兴技术
技术栈Python、LLM、Agent、分布式系统、数据管道、评估框架、Benchmark
业务类型profit_center

工作生活匹配

40较低

仅现场办公,JD描述强调快节奏和快速迭代,暗示较高工作强度,WLB信号缺失。

工作模式仅现场办公
办公地点市区核心地段
加班情况JD含高强度暗示词

使命价值匹配

70中等

AI行业处于高速增长赛道,评估系统对产品质量和用户体验有直接正向影响,但社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

月之暗面 的其他在招职位

  • Agentic Growth Engineer

    月之暗面 · 北京市
    AI 估算 · 30k-60k
  • Harness 研究工程师(Harness Engineer/Researcher)

    月之暗面 · 北京市
    AI 估算 · 30k-60k
  • 业务攻防技术专家

    月之暗面 · 北京市
    AI 估算 · 35k-60k
  • 网页美学评论实习生(Web Aesthetic Critic)

    月之暗面 · 北京市
    AI 估算 · 0k-0k
  • AI 产品实习生

    月之暗面 · 北京市
    AI 估算 · 3k-6k

相似职位推荐

  • Electron 技术专家-MiMo

    小米 · 北京市
    AI 估算 · 35k-55k
  • 高级后端开发工程师-MiMo

    小米 · 北京市
    AI 估算 · 30k-50k
  • 高级客户端研发工程师-MiMo

    小米 · 北京市
    AI 估算 · 25k-45k
  • 推荐算法工程师-海外电商(redshop)方向

    小红书 · 北京市
    AI 估算 · 30k-50k
  • AI Agent 开发工程师

    小红书 · 上海市
    AI 估算 · 30k-50k

月之暗面 的其他在招职位

  • Agentic Growth Engineer

    月之暗面 · 北京市
    AI 估算 · 30k-60k
  • Harness 研究工程师(Harness Engineer/Researcher)

    月之暗面 · 北京市
    AI 估算 · 30k-60k
  • 业务攻防技术专家

    月之暗面 · 北京市
    AI 估算 · 35k-60k
  • 网页美学评论实习生(Web Aesthetic Critic)

    月之暗面 · 北京市
    AI 估算 · 0k-0k
  • AI 产品实习生

    月之暗面 · 北京市
    AI 估算 · 3k-6k

相似职位推荐

  • Electron 技术专家-MiMo

    小米 · 北京市
    AI 估算 · 35k-55k
  • 高级后端开发工程师-MiMo

    小米 · 北京市
    AI 估算 · 30k-50k
  • 高级客户端研发工程师-MiMo

    小米 · 北京市
    AI 估算 · 25k-45k
  • 推荐算法工程师-海外电商(redshop)方向

    小红书 · 北京市
    AI 估算 · 30k-50k
  • AI Agent 开发工程师

    小红书 · 上海市
    AI 估算 · 30k-50k