米哈游的AI评测工程师（LLM方向）薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

AI评测工程师（LLM方向）的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

米哈游的AI评测工程师（LLM方向）有什么任职要求？

该职位要求本科学历及中级经验工作经验。

米哈游

AI评测工程师（LLM方向）

立即应聘

AI评测工程师（LLM方向）

发布于大约 2 个月前

普通员工/个人贡献者

上海市 / 北京市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Eval

大模型评测

实验设计

数据清洗

模型能力分析

自动化评测

问题分析

LLM

AI 估算 · 25k–45k

大厂AI岗位薪资较高，技术门槛高，市场稀缺，月薪可达25k-45k

职位详情

关于这个职位

该职位负责大语言模型评测体系的建设与优化，包括设计评测方案、开发自动化评测框架、构建和维护Benchmark、分析模型能力等

你将与研发团队紧密合作，用系统化评测驱动模型能力提升，跟踪行业前沿

适合对LLM有深入理解、喜欢解决复杂问题、追求技术深度的工程师

最低要求

本科及以上学历

熟练掌握 Python，具备较强工程能力与代码能力

具备较强的问题分析能力、实验设计能力与自主探索能力

有大模型评测相关经验，包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等

有 LLM Eval 相关经验，对模型训练与迭代过程中的评测方法有一定理解

熟悉开源 Benchmark、评测框架或评测方法论，对评测集构建、优化与质量分析有实践经验

工作职责

负责大语言模型（LLM）评测体系建设，包括评测方案设计、评测指标定义、评测流程标准化等，建立可持续演进的评测能力体系

负责评测框架开发与维护，建设自动化、可扩展、高可靠的评测系统，提高评测效率与覆盖度

负责 Public Benchmark 与 In-house Benchmark 的建设与维护，包括评测集构建、数据清洗、版本管理、持续迭代与优化

根据模型迭代重点与业务需求，持续补充评测维度，动态优化评测集结构，提升评测集有效性与区分度

深入分析模型能力边界与问题分布，识别模型优势、短板与退化风险，建立问题发现与质量拦截机制

跟踪行业模型发展趋势，对主流模型进行横向评测与能力分析，量化模型能力变化与行业水平

参与模型训练与迭代过程中的评测建设，支撑模型研发闭环

AI 洞察

优缺点分析

优点

站在AI前沿，深度参与大模型迭代，技术价值高
米哈游平台资源丰富，薪酬福利有竞争力
工作内容多样，涉及工程、数据、分析，成长空间大
评测工作对严谨性和细节要求高，需要耐心和细致
需要持续跟踪模型进展，保持技术敏感性
可能面临评估标准不统一、数据偏差等复杂问题
适合热爱AI技术、喜欢系统化思考、具备较强编程和数据分析能力的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

技术深耕：成为大模型评测领域的专家，主导评测体系架构
研发转管理：带领评测团队，规划评测方向与资源
横向拓展：向AI训练、推理优化等方向扩展，成为全栈AI工程师
设计和优化大语言模型的评测方案，包括指标定义和流程标准化
开发自动化评测框架，提高评测效率和覆盖度
构建和维护评测数据集（Benchmark），进行数据清洗和版本管理
深入分析模型能力，识别问题并驱动模型迭代改进
精通Python编程，具备扎实的工程能力，能独立开发评测系统
熟悉大模型评测方法论，掌握Eval相关工具和框架
具备实验设计和数据分析能力，能系统性地分析模型表现
了解NLP和深度学习基础，对Transformer架构有认识

申请策略

关注米哈游的技术博客或开源项目，了解其AI技术方向
准备一个你设计的评测方案案例，展示系统性思维
突出大模型评测或相关项目经历，列出具体贡献和成果
强调Python开发能力，可附上GitHub链接或代码示例
展示对Benchmark和评测方法的理解，如使用过哪些框架
深入学习LLM原理和常见的评测方法（如MMLU、HumanEval）
练习使用开源评测框架（如lm-evaluation-harness）
加强数据分析和可视化能力，用于呈现评测结果

面试指南

先明确问题目标（评估什么能力），再选择指标（准确率、F1等），最后说明验证方法
从数据收集、清洗、标注、采样等环节阐述数据质量保障措施
结合具体项目经验，展示分析问题的能力和系统性思维
请描述你用过的大模型评测框架，它们各自的优缺点是什么？
如何设计一个评测指标来评估模型在某个垂直领域的表现？
遇到模型评估结果与人工评审不一致时，你会如何分析？
你如何确保评测数据的质量和一致性？
请谈谈你对LLM评测未来趋势的看法

职位点评

综合评分

大厂AI前沿岗位，技术成长快，薪资高，但工作地点固定且可能有加班。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

该职位最适合追求技术成长、喜欢前沿AI领域的求职者，若看重工作生活平衡则需谨慎考虑。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活50

使命价值60

薪资福利

85较高

米哈游作为头部游戏公司，薪资水平高于市场平均，福利完善，但JD未明确薪资范围，属于面议。

薪资信号面议 (25K-45K/月)

成长发展

90较高

该职位直接参与大模型核心研发，技术前沿，成长迅速。JD明确提及评测体系持续迭代与创新，有大量学习机会。

技术前沿前沿/新兴技术

技术栈LLM、大模型评测、Benchmark、自动化评测、数据清洗

成长机会持续演进、持续迭代、持续补充

业务类型profit_center

工作生活

50较低

工作地点在上海或北京，未提及远程或弹性工作，推测为现场办公。大型互联网公司通常工作强度较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

60中等

AI评测对模型能力提升有直接贡献，但社会影响中性，游戏行业偏娱乐方向。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

米哈游的其他在招职位

相似职位推荐

Watch Jobs

AI评测工程师（LLM方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

财务BP负责人（AI）

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

米哈游的其他在招职位

财务BP负责人（AI）

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

AI评测工程师（LLM方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

财务BP负责人（AI）

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

米哈游的其他在招职位