米哈游的AI评测工程师（LLM方向）薪资是多少？

该职位薪资范围为 4k–8k（人民币/月）。

AI评测工程师（LLM方向）的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

米哈游的AI评测工程师（LLM方向）有什么任职要求？

该职位要求本科学历及无经验要求工作经验。

米哈游

AI评测工程师（LLM方向）

立即应聘

AI评测工程师（LLM方向）

发布于大约 2 个月前

实习/见习

上海市 / 北京市

无经验要求

实习生

仅现场办公

本科

研究与开发 (研发)

大模型评测

数据清洗

自动化框架

LLM

NLP

模型能力分析

AI 估算 · 4k–8k

实习岗位，参考互联网大厂实习薪资，日薪约200-400元，按22天计算。

职位详情

关于这个职位

作为AI评测实习生，你将参与米哈游大语言模型评测体系的建设与迭代，负责评测方案设计、自动化框架开发以及benchmark维护，支撑模型能力提升

工作涉及数据清洗、评测集构建、模型能力分析等，适合对NLP和模型评测感兴趣的在校生

最低要求

本科及以上学历

熟练掌握 Python，具备较强工程能力与代码能力

具备较强的问题分析能力、实验设计能力与自主探索能力

有大模型评测相关经验，包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等

有 LLM Eval 相关经验，对模型训练与迭代过程中的评测方法有一定理解

熟悉开源 Benchmark、评测框架或评测方法论，对评测集构建、优化与质量分析有实践经验

工作职责

建设可持续演进的大模型评测体系

提升评测自动化程度与评测效率

推动评测数据、评测框架与评测方法持续迭代

用系统化评测驱动模型能力提升

负责大语言模型（LLM）评测体系建设，包括评测方案设计、评测指标定义、评测流程标准化等，建立可持续演进的评测能力体系

负责评测框架开发与维护，建设自动化、可扩展、高可靠的评测系统，提高评测效率与覆盖度

负责 Public Benchmark 与 In-house Benchmark 的建设与维护，包括评测集构建、数据清洗、版本管理、持续迭代与优化

根据模型迭代重点与业务需求，持续补充评测维度，动态优化评测集结构，提升评测集有效性与区分度

深入分析模型能力边界与问题分布，识别模型优势、短板与退化风险，建立问题发现与质量拦截机制

跟踪行业模型发展趋势，对主流模型进行横向评测与能力分析，量化模型能力变化与行业水平

参与模型训练与迭代过程中的评测建设，支撑模型研发闭环

AI 洞察

优缺点分析

优点

接触前沿LLM技术，参与大模型评测体系建设，技能积累快
米哈游平台大，公司盈利稳定，实习转正机会大
大模型领域变化快，需要持续学习跟踪行业动态
适合对NLP和模型评测有浓厚兴趣、具备较强编程能力的在校生，希望通过实习积累大模型实战经验

缺点 / 挑战

工作内容有挑战性，涉及自动化、数据、分析等多方面，成长空间大
需要较强的工程能力和问题分析能力，对实习生要求较高
评测工作可能较为繁琐，需要处理大量数据和重复性任务

角色解读

成长为评测专家，深入模型能力分析，参与模型训练闭环
可向AI研究员或算法工程师发展，积累LLM实战经验
在米哈游可转正为正式员工，参与核心游戏AI研发
负责设计LLM评测方案，定义评测指标和流程，建立可持续的评测体系
开发自动化评测框架，提高评测效率和覆盖度
构建和维护Public/In-house Benchmark，包括数据清洗、版本管理
分析模型能力分布，识别优势短板，驱动模型迭代
熟练掌握Python，具备工程能力，能够开发评测框架
了解大模型评测方法，熟悉开源Benchmark和评测框架
善于问题分析和实验设计，能通过数据驱动决策
对NLP和机器学习有基本理解

申请策略

关注米哈游游戏业务场景，思考评测如何辅助游戏AI
准备一个自己做的LLM评测相关小项目，增加竞争力
突出Python编程能力，提供GitHub链接或相关项目代码
强调大模型相关项目经验，如使用过评测框架或参与过benchmark构建
体现数据分析和实验设计能力，列举相关课程或研究
提前熟悉常见LLM评测框架如lm-evaluation-harness、OpenCompass等
补强数据清洗和自动化脚本编写能力，学习pandas、numpy等
了解Transformers库和常见模型架构

面试指南

针对框架问题：先简述框架功能，再谈实际使用经验，最后对比其他框架
针对设计问题：明确目标 -> 定义维度 -> 选择指标 -> 构建数据 -> 分析结果
针对数据问题：描述清洗流程，如去重、格式统一、异常值检测等
请介绍你熟悉的一个LLM评测框架，它的优缺点是什么？
如何设计一个评测方案来测试模型的多轮对话能力？
有一批评测数据存在脏数据，你如何处理？
你如何评估一个评测指标的有效性？
复现一些经典paper的评测实验，理解评测逻辑

职位点评

综合评分

大厂实习、前沿技术、成长性极高，但实习薪资和稳定性一般。

从学习成长、工作节奏、岗位方向和实习待遇综合评估，方便比较实习机会。

更适合这类人

适合追求技术成长、希望积累大模型经验的在校生，对短期薪资和福利要求不高。

表现最好

成长发展

相对薄弱

薪资福利

薪资福利50

成长发展90

工作生活50

使命价值60

薪资福利

50较低

实习薪资处于行业中上水平，但作为实习岗位，薪资和稳定性有限。米哈游福利较好，但JD未提及具体福利。

薪资信号未披露（AI估算：4K-8K/月）

成长发展

90较高

该职位提供前沿LLM技术实践，评测体系建设可深度参与模型研发闭环，成长空间大。

技术前沿前沿/新兴技术

技术栈LLM、大模型评测、Benchmark、Python

成长机会可持续演进、持续迭代、跟踪行业趋势

业务类型ambiguous

工作生活

50较低

仅现场办公，地点在上海和北京，通勤可能不便。但米哈游可能提供弹性工时，JD未明确。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

参与AI前沿技术有一定社会价值，但评测工作本身直接社会影响力有限。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

米哈游的其他在招职位

相似职位推荐

Watch Jobs

AI评测工程师（LLM方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

音效设计师

音频与传感-算法工程师-光谱/激光-杭州

海康微影-仿真工程师-传热仿真-杭州桐庐

研究院-大模型应用算法工程师-杭州

海康微影-光电器件开发工程师-桐庐

Scientist

米哈游的其他在招职位

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

音效设计师

相似职位推荐

音频与传感-算法工程师-光谱/激光-杭州

海康微影-仿真工程师-传热仿真-杭州桐庐

研究院-大模型应用算法工程师-杭州

海康微影-光电器件开发工程师-桐庐

Scientist

AI评测工程师（LLM方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

音效设计师

相似职位推荐

音频与传感-算法工程师-光谱/激光-杭州

海康微影-仿真工程师-传热仿真-杭州桐庐

研究院-大模型应用算法工程师-杭州

海康微影-光电器件开发工程师-桐庐

Scientist

米哈游的其他在招职位