米哈游的AI评测工程师（LLM方向）薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

AI评测工程师（LLM方向）的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

米哈游的AI评测工程师（LLM方向）有什么任职要求？

该职位要求本科学历及中级经验工作经验。

米哈游

AI评测工程师（LLM方向）

立即应聘

AI评测工程师（LLM方向）

发布于大约 2 个月前

普通员工/个人贡献者

上海市 / 北京市

中级经验

全职员工

仅现场办公

本科

软件工程

大模型评测

数据分析

机器学习

模型评估

自动化测试

LLM

AI 估算 · 25k–45k

大厂核心AI岗位，技术门槛高，市场稀缺，薪资竞争力强。

职位详情

关于这个职位

该职位主要负责大语言模型（LLM）评测体系的建设与优化，包括评测方案设计、框架开发、数据集构建与维护，以及模型能力分析

你将参与从评测自动化到模型迭代的全流程，推动模型能力持续提升

适合对AI评测、模型评估有浓厚兴趣的技术人才

最低要求

本科及以上学历

熟练掌握 Python，具备较强工程能力与代码能力

具备较强的问题分析能力、实验设计能力与自主探索能力

有大模型评测相关经验，包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等

有 LLM Eval 相关经验，对模型训练与迭代过程中的评测方法有一定理解

熟悉开源 Benchmark、评测框架或评测方法论，对评测集构建、优化与质量分析有实践经验

工作职责

负责大语言模型（LLM）评测体系建设，包括评测方案设计、评测指标定义、评测流程标准化等，建立可持续演进的评测能力体系

负责评测框架开发与维护，建设自动化、可扩展、高可靠的评测系统，提高评测效率与覆盖度

负责 Public Benchmark 与 In-house Benchmark 的建设与维护，包括评测集构建、数据清洗、版本管理、持续迭代与优化

根据模型迭代重点与业务需求，持续补充评测维度，动态优化评测集结构，提升评测集有效性与区分度

深入分析模型能力边界与问题分布，识别模型优势、短板与退化风险，建立问题发现与质量拦截机制

跟踪行业模型发展趋势，对主流模型进行横向评测与能力分析，量化模型能力变化与行业水平

参与模型训练与迭代过程中的评测建设，支撑模型研发闭环

AI 洞察

优缺点分析

优点

身处AI大模型前沿领域，接触最新技术和方法
米哈游作为头部游戏公司，技术氛围浓厚，资源充足
岗位核心，对模型能力提升有直接影响力
技能积累通用性强，未来可在AI行业广泛应用
行业变化快，需要不断跟踪新技术和新方法
适合对AI评测有热情，具备扎实编程能力和分析思维，希望在AI质量保障领域深入发展的技术人才

缺点 / 挑战

评测体系建设需要持续投入，工作强度可能较高
需要对模型有深入理解，技术门槛较高

角色解读

深耕AI评测领域，成为评测专家或质量保障负责人
转向模型研发，利用评测经验更深入地参与模型训练和优化
横向扩展至AI平台或工具链开发，负责更大范围的测试基础设施
设计和构建大语言模型的评测体系，包括评测指标、流程和自动化框架
维护和优化公开及内部Benchmark数据集，确保评测的有效性和区分度
分析模型能力边界与问题分布，识别模型短板并推动改进
跟踪行业模型动态，进行横向评测和量化分析
精通Python，具备扎实的工程和代码能力
熟悉大模型评测方法学，有评测框架或Benchmark构建经验
优秀的问题分析和实验设计能力，能独立探索和解决问题
了解LLM训练和迭代流程，理解评测在其中的作用

申请策略

关注米哈游的技术博客和产品动态，了解其AI战略方向
面试前准备一个你主导或参与的评测项目复盘，体现系统思考能力
突出大模型评测或相关项目经验，如Benchmark构建、评测框架开发
展示Python工程能力和自动化工具开发案例
强调问题分析和实验设计能力，可附上具体技术方案
如有开源贡献或相关论文，务必列出
深入学习主流LLM评测框架（如HELM、LM Eval Harness）的使用和原理
熟悉数据清洗和数据集构建工具，提高数据处理能力

面试指南

使用STAR法则描述项目：情境、任务、行动、结果，突出个人贡献和思考
对设计类问题，从目标、指标、数据集、流程、迭代等角度系统性回答
对分析类问题，展示假设驱动和逐步排除的分析思路
请介绍你参与过的大模型评测项目，包括评测方案设计和遇到的问题
如何设计一个有效的Benchmark来评估LLM的推理能力？
在评测过程中，如何处理数据偏差和过拟合问题？
你如何看待当前主流LLM评测框架的优缺点？
如果模型在某个指标上表现突然下降，你会如何排查原因？

职位点评

综合评分

大厂核心AI评测岗，前沿技术栈，成长空间大，薪资未透露，WLB不确定。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

该职位最适合发展性动机强的求职者，追求技术成长和前沿领域，对工作生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利60

成长发展85

工作生活50

使命价值65

薪资福利

60中等

薪资未明确披露，但基于行业和公司规模，预计薪资具有竞争力，但缺乏详细福利信息。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

85较高

岗位涉及前沿AI技术，持续迭代评测体系，成长空间大，但未明确提及晋升路径。

技术前沿前沿/新兴技术

技术栈LLM、大模型、机器学习、Python、Benchmark、自动化测试

业务类型ambiguous

工作生活

50较低

办公地点未明确，无远程或弹性工作信息，可能为常规办公模式。

工作模式未明确

办公地点未明确

加班情况未提及（无法判断）

使命价值

65中等

AI大模型行业高速增长，但社会影响力中性，创新性积极。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

米哈游的其他在招职位

相似职位推荐

Watch Jobs

AI评测工程师（LLM方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

财务BP负责人（AI）

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

米哈游的其他在招职位

财务BP负责人（AI）

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

相似职位推荐

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

AI评测工程师（LLM方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

财务BP负责人（AI）

财务分析实习生

资深文案策划 - 沙盒预研

角色原画-原神

资深数据运营-星布谷地

相似职位推荐

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

米哈游的其他在招职位