月之暗面的评估系统工程师（Eval Engineer）薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

评估系统工程师（Eval Engineer）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

月之暗面的评估系统工程师（Eval Engineer）有什么任职要求？

该职位要求学历未注明学历及中级经验工作经验。

月之暗面

评估系统工程师（Eval Engineer）

立即应聘

评估系统工程师（Eval Engineer）

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

Agent Loop

分布式系统

数据管道

模型评估

评估系统

LLM

MCP

AI 估算 · 25k–45k

AI评估工程岗需LLM和系统经验，B轮公司有期权，薪资具竞争力，中位数约35k/月。

职位详情

关于这个职位

职位负责构建和维护模型评估系统，确保模型在迭代和发布时的质量与一致性

你需要与产品和研究团队紧密合作，搭建一体化评估平台，优化线上监控，并推动难以衡量指标的度量

这是一个技术深度高、节奏快的AI核心岗位

最低要求

年以上软件工程经验，精通 Python 编程，包括生产或研究基础设施，具备构建或运维分布式系统、数据管道或其他需要大规模可靠性的基础设施的经验

与研究与产品团队协作，具备清晰的书面和口头沟通能力，尤其是在向非专业人士解释技术结果

同时在训练与模型迭代中，可以胜任高速的模型迭代节奏

熟悉 LLM 以及 Agent 有关的核心概念和技术原理，包括 Agent Loop、Skills、MCP、Memory、Multi-Agent 等相关知识

对于评估和常见的评估 harness/Scaffold 有深入的研究

工作职责

构建一体化评估系统：* 定义并且持续改进 Agent Eval Platform，维护 Internal Benchmark，支持在不同的 harness 以及 Eval 策略下灵活评估，优化线上监控与评估体系，打通在线评估与离线评估的闭环

打通训练与生产的评估：* 构建和维护全面的评估套件，以确保模型质量和产品发布及更新的一致性

团队协作：* 指导产品工程师掌握快速工程最佳实践，并帮助团队构建他们的第一个评估

与公司内其他评估团队建立持久的合作关系，制定共享路线图，并避免在共享评估基础设施上出现 tragedy-of-the-commons

快速迭代：* 在快节奏的环境中工作，模型功能每天都在进步，需要快速适应和创造性地解决问题

通过基建支持拓展评估维度：* 推动团队去衡量那些难以衡量但是对于业务至关重要的指标——例如行为偏差、Tokens 效率、资源利用率

优先资格

具备从零开始搭建一套新的评估体系，用于测试特定的 Agent 能力——从定义任务、构建数据集、实现评分机制、根据已知信号进行验证，并最终交付一个清晰易懂的仪表盘，展示评估结果

熟悉主流 Agent 评测 Benchmark 如 Terminal bench、OS World、Apex Agent 的相关评测框架以及题目标准格式，了解如何在评估系统中解耦模型，Harness，Tasks 以及 Eval

AI 洞察

优缺点分析

优点

处于AI最前沿，接触LLM和Agent最新评估方法论
公司B轮阶段，成长快，有机会从0到1搭建系统
核心岗位，对产品质量影响大，成就感强
团队协作密集，可锻炼跨部门沟通和指导能力
工作节奏快，模型迭代频繁，需快速适应变化
评估体系复杂度高，需要权衡多维度指标
技术深度要求高，需持续学习最新Benchmark和框架
这个职位适合技术扎实、对AI评估有热情，能适应快节奏并善于解决复杂问题的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

成为AI评估领域的专家，主导公司评估体系架构
向AI基建负责人发展，或转型至模型训练/产品方向
在快速迭代中积累前沿技术经验，有机会晋升为技术Leader
构建和维护一体化的Agent评估平台，支持多种评估策略和Benchmark
打通线上与离线评估，建立监控体系，确保模型迭代质量
指导产品工程师掌握评估最佳实践，与内部团队协作制定共享评估基础设施
推动衡量行为偏差、Tokens效率等关键但难以直接量化的指标
精通Python，有分布式系统或数据管道等大规模基础设施经验
深入理解LLM和Agent核心概念（Agent Loop、MCP、Memory等）
熟悉常见评估框架和Harness，能搭建完整的评估流程
优秀的跨团队沟通能力，能将技术结果清晰传达给非技术同事

申请策略

在简历和面试中展示对评估体系整体架构的思考，而不仅是单一技能
关注月之暗面Kimi的产品动态，理解其模型迭代需求，体现业务视角
突出Python和分布式系统的实际项目经验，尤其是高可靠基础设施
展示与LLM/Agent相关的评估或开发经历，特别是使用过Harness或Benchmark
强调跨团队协作案例，以及将复杂技术解释给非专业人员的经验
如果有从0搭建评估体系的经历，务必详细描述
深入学习Agent主流Benchmark（Terminal bench, OS World等）的框架和格式
实践MCP、Agent Loop等概念，通过开源项目提升理解

面试指南

先明确评估目标，再分解为任务定义、数据集、评分机制、验证闭环
使用结构化思维：区分离线与在线、区分模型与Harness，确保可复用
强调沟通与协作：与产品、研究团队对齐标准，避免重复建设
如何设计一个评估系统来比较两个模型版本在Agent任务上的表现？
请举例说明你如何从零搭建一个评估流程，包括数据、评分、验证
解释LLM Agent中的MCP、Memory、Multi-Agent是如何协同工作的？
如何处理评估指标之间的冲突（如准确性与Tokens效率）？
假如产品团队要求快速上线一个新功能，你如何平衡评估充分性与迭代速度？

职位点评

综合评分

前沿AI评估系统岗，技术成长空间大，薪资面议，节奏快。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

该职位最适合追求技术成长和前沿领域、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利60

成长发展85

工作生活40

使命价值70

薪资福利

60中等

职位未披露薪资，但AI领域通常薪资较高，且B轮公司可能有期权，但稳定性一般。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

85较高

该职位涉及LLM和Agent前沿技术，能深度参与评估体系构建，成长空间大，但未明确提及晋升路径。

技术前沿前沿/新兴技术

技术栈Python、LLM、Agent、分布式系统、数据管道、评估框架、Benchmark

业务类型profit_center

工作生活

40较低

仅现场办公，JD描述强调快节奏和快速迭代，暗示较高工作强度，WLB信号缺失。

工作模式仅现场办公

办公地点市区核心地段

加班情况JD含高强度暗示词

使命价值

70中等

AI行业处于高速增长赛道，评估系统对产品质量和用户体验有直接正向影响，但社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

月之暗面的其他在招职位

相似职位推荐

Watch Jobs

评估系统工程师（Eval Engineer）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

体验运营实习生（Agent 业务方向）

体验运营实习生（Harness业务方向）

SEO & GEO 增长实习生（AI 方向）

客服运营（境内外）

销售运营实习生（AI 流程自动化方向）

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

月之暗面的其他在招职位

体验运营实习生（Agent 业务方向）

体验运营实习生（Harness业务方向）

SEO & GEO 增长实习生（AI 方向）

客服运营（境内外）

销售运营实习生（AI 流程自动化方向）

相似职位推荐

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

评估系统工程师（Eval Engineer）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

月之暗面 的其他在招职位

体验运营实习生（Agent 业务方向）

体验运营实习生（Harness业务方向）

SEO & GEO 增长实习生（AI 方向）

客服运营（境内外）

销售运营实习生（AI 流程自动化方向）

相似职位推荐

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

月之暗面的其他在招职位