米哈游的AI评测工程师（LLM方向）薪资是多少？

该职位薪资范围为 18k–28k（人民币/月）。

AI评测工程师（LLM方向）的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

米哈游的AI评测工程师（LLM方向）有什么任职要求？

该职位要求本科学历及中级经验工作经验。

米哈游

AI评测工程师（LLM方向）

立即应聘

AI评测工程师（LLM方向）

发布于大约 2 个月前

普通员工/个人贡献者

上海市 / 北京市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Eval

大模型评测

数据清洗

模型能力分析

自动化

评测框架

LLM

AI 估算 · 18k–28k

米哈游作为行业领先游戏公司，薪资竞争力强，AI评测岗位技术要求高，校招薪资通常较高，参考行业水平及城市因素。

职位详情

关于这个职位

作为AI评测工程师，你将负责构建和完善大语言模型的评测体系，包括评测方案设计、自动化评测系统开发、基准数据集建设等

你将深入分析模型能力边界，推动模型迭代优化，并跟踪行业前沿趋势

该职位要求扎实的Python工程能力、大模型评测经验以及对模型研发闭环的深入理解

最低要求

本科及以上学历

熟练掌握 Python，具备较强工程能力与代码能力

具备较强的问题分析能力、实验设计能力与自主探索能力

有大模型评测相关经验，包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等

有 LLM Eval 相关经验，对模型训练与迭代过程中的评测方法有一定理解

熟悉开源 Benchmark、评测框架或评测方法论，对评测集构建、优化与质量分析有实践经验

工作职责

负责大语言模型（LLM）评测体系建设，包括评测方案设计、评测指标定义、评测流程标准化等，建立可持续演进的评测能力体系

负责评测框架开发与维护，建设自动化、可扩展、高可靠的评测系统，提高评测效率与覆盖度

负责 Public Benchmark 与 In-house Benchmark 的建设与维护，包括评测集构建、数据清洗、版本管理、持续迭代与优化

根据模型迭代重点与业务需求，持续补充评测维度，动态优化评测集结构，提升评测集有效性与区分度

深入分析模型能力边界与问题分布，识别模型优势、短板与退化风险，建立问题发现与质量拦截机制

跟踪行业模型发展趋势，对主流模型进行横向评测与能力分析，量化模型能力变化与行业水平

参与模型训练与迭代过程中的评测建设，支撑模型研发闭环

AI 洞察

优缺点分析

优点

身处大模型热门赛道，技术前沿，积累宝贵经验
米哈游平台资源丰富，接触大规模模型研发流程
对技术深度和广度要求高，需同时掌握工程、数据和模型知识
技术迭代快，需要持续学习最新评测方法和工具
适合对NLP和大模型有浓厚兴趣，具备扎实编程能力和数据分析思维，喜欢系统性解决问题的技术型求职者

缺点 / 挑战

工作内容具有挑战性，能深度参与模型能力提升，成就感强
评测工作较为繁琐，需耐心处理数据细节和重复性任务

角色解读

可向AI评测专家或大模型训练专家方向发展，深入模型研发核心
也可转向AI平台架构师，负责评测系统与基础设施的架构设计
随着经验积累，可晋升为技术主管或项目经理，带领评测团队
设计和维护大模型评测体系，包括制定评测方案、定义指标和标准化流程
开发自动化评测框架和工具，提升评测效率和可靠性
构建和优化各类评测数据集（公开与内部），确保数据质量和覆盖度
分析模型表现，定位能力短板，为模型迭代提供量化依据
熟练掌握Python编程，具备较强的工程和代码能力
深入了解大模型评测方法，熟悉开源Benchmark和评测框架
具备数据分析和问题诊断能力，能设计实验验证模型能力变化
了解模型训练与迭代流程，能配合研发团队进行评测闭环

申请策略

关注米哈游在AI领域的布局和产品，面试时展现对游戏AI场景的理解
提前准备一个自己设计或参与的评测案例，详细说明方法论和结果
突出大模型评测相关项目经验，如Benchmark构建、评测框架开发等
强调Python工程能力，如参与的开源项目或高质量代码作品
展示数据分析与问题解决案例，尤其是通过评测驱动模型改进的经历
巩固Python编程，熟悉常用评测框架如LM Eval Harness、OpenCompass等
了解主流大模型（GPT、LLaMA、ChatGLM等）的评测方法与指标
学习数据清洗和自动化测试相关技术，提升评测效率

面试指南

STAR法则：描述情境、任务、行动和结果，突出个人贡献和量化成果
问题分析类：先定义问题边界，再提出假设，设计实验验证，最后总结
技术方案类：从需求出发，对比不同方案优缺点，选择合理方案并说明理由
请描述你参与过的大模型评测项目，你是如何设计评测方案和指标的？
如何评估一个Benchmark的质量？你认为一个好的评测集应具备哪些特性？
如果模型在某个评测集上分数很高但实际效果不好，你会如何排查？
请解释你在构建自动化评测系统时遇到的技术挑战及解决方案
对当前主流的LLM评测框架（如HELM、OpenCompass）有何看法？优缺点？

职位点评

综合评分

前沿AI评测岗位，技术成长极快，但加班和现场办公限制生活灵活性。

从起薪待遇、成长路径、工作节奏和岗位方向综合评估，方便比较职业起点。

更适合这类人

最适合追求技术成长和职业发展、愿意投入高强度学习与工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活40

使命价值70

薪资福利

75中等

米哈游作为知名游戏公司，薪资水平和福利待遇在行业中具有较强竞争力，但JD未明确具体薪资和详细福利，因此评分中等偏上。

薪资信号未披露（AI估算：18K-28K/月）

成长发展

90较高

该职位处于大模型技术前沿，涉及评测体系建设和自动化开发，技能成长空间大，且JD中强调持续迭代和跟踪行业趋势，发展性动机满足度高。

技术前沿前沿/新兴技术

技术栈LLM、大模型评测、Python、Benchmark、评测框架、自动化、数据清洗

成长机会持续迭代、跟踪行业模型发展趋势、推动评测数据、框架与方法持续迭代

业务类型ambiguous

工作生活

40较低

JD未提及工作地点灵活性或工作生活平衡相关福利，且米哈游通常为现场办公，上海/北京通勤压力大，生活化动机满足度较低。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

AI评测岗位直接推动大模型能力提升，技术影响力大，属于高速增长赛道，但社会价值偏向技术驱动而非直接造福社会，评分为中等偏上。

行业发展高速增长赛道

社会影响中性/一般

使命信号用系统化评测驱动模型能力提升

创新程度积极采用新技术

米哈游的其他在招职位

相似职位推荐

Watch Jobs

AI评测工程师（LLM方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

音效设计师

音频与传感-算法工程师-光谱/激光-杭州

海康微影-仿真工程师-传热仿真-杭州桐庐

研究院-大模型应用算法工程师-杭州

海康微影-光电器件开发工程师-桐庐

Scientist

米哈游的其他在招职位

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

音效设计师

相似职位推荐

音频与传感-算法工程师-光谱/激光-杭州

海康微影-仿真工程师-传热仿真-杭州桐庐

研究院-大模型应用算法工程师-杭州

海康微影-光电器件开发工程师-桐庐

Scientist

AI评测工程师（LLM方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

音效设计师

相似职位推荐

音频与传感-算法工程师-光谱/激光-杭州

海康微影-仿真工程师-传热仿真-杭州桐庐

研究院-大模型应用算法工程师-杭州

海康微影-光电器件开发工程师-桐庐

Scientist

米哈游的其他在招职位