米哈游的AI 模型评测专家 - 星布谷地薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

AI 模型评测专家 - 星布谷地的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

米哈游的AI 模型评测专家 - 星布谷地有什么任职要求？

该职位要求本科学历及中级经验工作经验。

米哈游

AI 模型评测专家 - 星布谷地

立即应聘

AI 模型评测专家 - 星布谷地

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

NLP

自动化测试

LLM

对话系统

Sft/Rlhf

大模型评测

Llm-As-Judge

Reward Model

数据飞轮

AI 估算 · 30k–50k

米哈游AI核心岗位，大模型评测人才稀缺，薪资对标一线大厂，竞争力强

职位详情

关于这个职位

该职位负责搭建并优化米哈游游戏场景中大模型的全链路评测体系，包括自动化评测方案设计、人工评估管理、数据飞轮构建与模型能力分析

你将与算法、产品团队紧密合作，推动大模型在角色扮演对话中的持续迭代，是保障AI对话体验质量的关键角色

最低要求

）本科及以上学历，计算机科学、人工智能、NLP、数据科学等相关专业

）2年以上AI/NLP领域相关经验，有大模型评测体系搭建、模型质量保障、或对话系统评估的实际项目经验

）有开放域对话、角色扮演、或聊天产品相关的评测或业务经验，深刻理解无标准答案场景下的评估难点与方法论

）具备模型训练经验（SFT/RLHF/DPO），能够训练或微调评测用小模型（如 Reward Model、分类器等），了解 LLM 基本原理与 Agent 构建

）熟悉人工评估流程设计与标注管理，有过标注方案设计、标注质量控制、标注数据管理的经验

）熟悉 LLM-as-Judge、基于 Rubric 的生成式评估等自动化评测方法，有实际落地经验

）掌握 Python 等编程语言，具备自动化评测脚本开发与评测平台搭建能力，熟悉 CI/CD 集成流程

）具备优秀的数据分析能力，善于从大量对话数据中发现问题模式、定位 Bad Case、提炼优化方向

工作职责

）评测体系搭建：负责游戏体验与角色扮演场景下大模型的全链路评测体系建设，设计覆盖多维度的评测指标体系（如角色一致性、对话连贯性、情感表现力、安全性、创意性等），建立从数据构建→评测执行→结果分析→问题定位→模型迭代的完整评测流水线

）自动化评测方案：设计并落地多层级自动化评测方案，包括但不限于：基于规则/脚本的自动化测试、训练专用评测小模型（Reward Model/Classifier）、基于大语言模型的 LLM-as-Judge 评估、基于 Rubric 的生成式评分方案，持续提升评测效率与覆盖度

）人工评估与标注管理：设计人工评估方案与标注规范，管理标注团队与标注流程，建立人工评估与自动化评估的校准机制，确保评测结果的可靠性与一致性

）数据飞轮与持续迭代：构建"评测—发现问题—数据积累—模型优化—再评测"的数据飞轮闭环，系统性沉淀 Bad Case 库、评测集、评测基准，支撑模型团队快速实验迭代

）深度分析与问题定位：深入分析评测结果，挖掘模型在开放域对话中的能力短板（如记忆遗忘、共情差、逻辑冲突等），输出可执行的优化建议，与算法、产品团队协作推动模型持续改进

）前沿跟踪与方法创新：跟踪业界对话/角色扮演评测的前沿方法（如 Agent 评估框架、多轮对话评估基准、主观开放域评估方法论），引入并适配适合游戏场景的评测工具与方法

优先资格

）深度体验过多款 AI 游戏/AI对话/角色扮演产品，对不同产品的对话体验有系统性理解和独立判断

）有奖励模型（Reward Model）训练与应用经验，了解 RLHF/RLAIF 流程中评测信号的设计与优化

）有游戏行业相关经验，理解游戏叙事、角色设定、世界观一致性等特殊需求

）在对话评估、NLG 评测、LLM 对齐等方向有学术发表或开源贡献

）有大规模评测基准（Benchmark）构建或维护经验，熟悉评测集的设计原则与偏差控制

）具备 0→1 评测体系搭建经验，主导过评测流水线从无到有的建设并长期维护迭代

AI 洞察

优缺点分析

优点

加入米哈游，参与顶尖AI游戏项目，接触前沿大模型技术（LLM、RLHF、Agent评估等），技能积累价值高
公司平台大、资源充足，团队协作紧密，有明确的成长空间和行业认可度
工作强度可能较大，需同时推进自动化方案、人工管理、数据分析等多线任务，节奏快
大模型评测领域方法论仍在快速演进，需持续学习最新技术，保持技术敏感度
角色扮演对话的评估主观性强，建立可靠评测体系难度高，需要较强的实验设计和验证能力
适合热爱大模型技术、喜欢系统化思考、具备NLP和评测经验、希望在游戏AI领域深耕的技术专家

缺点 / 挑战

职位负责0→1搭建评测体系，工作内容富有挑战性和创造性，能直接推动产品质量提升

角色解读

向AI评测专家或大模型质量保障负责人发展，成为团队评测体系的核心建设者
积累大模型对齐与角色扮演领域经验，可转向模型训练、AI产品经理或技术Leader
在米哈游的AI游戏前沿环境中，有机会参与定义行业评测标准，提升行业影响力
设计并搭建大模型在游戏角色扮演场景下的评测体系，涵盖角色一致性、对话连贯性等多维度指标
开发自动化评测方案，包括规则脚本、训练评测小模型、LLM-as-Judge等方法，提升评测效率
管理人工标注团队，设计评估规范，确保评测结果可靠
构建数据飞轮，推动模型持续迭代
深入分析模型表现，定位能力短板（如记忆、共情），输出优化建议，与算法产品团队协作改进
扎实的NLP/大模型知识，熟悉SFT/RLHF/DPO等训练方法，能训练Reward Model等小模型
熟练运用LLM-as-Judge、Rubric评估等自动化评测方法，并有实际落地经验
精通Python，能开发评测脚本与平台，熟悉CI/CD集成
具备数据分析能力，能从对话数据中发现模式

申请策略

在面试中准备一个完整的评测体系设计案例，从指标设计到自动化方案到结果分析，展示系统化思维
关注米哈游AI Lab的技术博客或公开演讲，了解公司技术方向，体现对业务的深入理解
突出大模型评测或对话系统评估的实际项目经验，最好有具体指标体系搭建和自动化评测落地的案例
强调模型训练经历（SFT/RLHF/DPO），尤其是Reward Model训练或LLM-as-Judge应用经验
展示数据分析与问题定位能力，例如通过Bad Case分析推动模型优化的成果
如有游戏行业或角色扮演产品相关经验，务必重点提及
系统学习LLM-as-Judge和基于Rubric的评估方法，阅读相关论文并尝试复现
动手训练一个小型Reward Model或分类器，积累实际经验

面试指南

对于体系建设类问题，采用STAR法则：背景-目标-行动-结果，突出指标定义、自动化方案和迭代成果
对于技术方法类问题，先阐述原理，再结合实际案例说明如何克服难点，最后总结经验和教训
请描述你之前搭建的评测体系，包括指标体系设计、自动化评估方法和遇到的问题及解决方案
如何评估角色扮演场景下大模型的对话连贯性和角色一致性？你会设计哪些指标？
你是否有LLM-as-Judge的落地经验？如何保证Judge模型的可靠性和公平性？
谈谈你对Reward Model训练的理解，在RLHF中如何设计评测信号？
假设你发现模型在对话中经常出现记忆遗忘问题，你会如何定位原因并提出优化建议？
复习大模型评测前沿论文（如ChatGPT-Eval、MT-Bench、AgentBench等），总结关键方法论

职位点评

综合评分

米哈游AI评测专家，顶尖技术平台，高薪高压，发展空间巨大。

更适合这类人

适合追求前沿技术成长、高薪资回报，且能接受较强工作节奏的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值85

薪资福利

80较高

米哈游属于超大型企业且自负盈亏，薪资竞争力强；但JD未明确福利与薪资范围，补偿性信息部分缺失。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

职位技术前沿（LLM、奖励模型、Agent评估），涉及体系搭建与数据飞轮，成长性强；JD未明确晋升路径，但大厂通常有内部发展通道。

技术前沿前沿/新兴技术

技术栈LLM、Reward Model、SFT、RLHF、LLM-as-Judge、Python、NLP、CI/CD、数据飞轮

业务类型ambiguous

工作生活

50较低

仅现场办公，工作地点在上海，未提及弹性工作或WLB措施，且互联网大厂普遍节奏较快。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

85较高

AI游戏与角色扮演属于高速增长赛道，技术创新（LLM对齐、Agent评估）对社会有一定正向影响，但非直接社会价值型岗位。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

米哈游

AI 模型评测专家 - 星布谷地

立即应聘

AI 模型评测专家 - 星布谷地

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

NLP

自动化测试

LLM

对话系统

Sft/Rlhf

大模型评测

Llm-As-Judge

Reward Model

数据飞轮

AI 估算 · 30k–50k

米哈游AI核心岗位，大模型评测人才稀缺，薪资对标一线大厂，竞争力强

职位详情

关于这个职位

该职位负责搭建并优化米哈游游戏场景中大模型的全链路评测体系，包括自动化评测方案设计、人工评估管理、数据飞轮构建与模型能力分析

你将与算法、产品团队紧密合作，推动大模型在角色扮演对话中的持续迭代，是保障AI对话体验质量的关键角色

最低要求

）本科及以上学历，计算机科学、人工智能、NLP、数据科学等相关专业

）2年以上AI/NLP领域相关经验，有大模型评测体系搭建、模型质量保障、或对话系统评估的实际项目经验

）有开放域对话、角色扮演、或聊天产品相关的评测或业务经验，深刻理解无标准答案场景下的评估难点与方法论

）具备模型训练经验（SFT/RLHF/DPO），能够训练或微调评测用小模型（如 Reward Model、分类器等），了解 LLM 基本原理与 Agent 构建

）熟悉人工评估流程设计与标注管理，有过标注方案设计、标注质量控制、标注数据管理的经验

）熟悉 LLM-as-Judge、基于 Rubric 的生成式评估等自动化评测方法，有实际落地经验

）掌握 Python 等编程语言，具备自动化评测脚本开发与评测平台搭建能力，熟悉 CI/CD 集成流程

）具备优秀的数据分析能力，善于从大量对话数据中发现问题模式、定位 Bad Case、提炼优化方向

工作职责

优先资格

）深度体验过多款 AI 游戏/AI对话/角色扮演产品，对不同产品的对话体验有系统性理解和独立判断

）有奖励模型（Reward Model）训练与应用经验，了解 RLHF/RLAIF 流程中评测信号的设计与优化

）有游戏行业相关经验，理解游戏叙事、角色设定、世界观一致性等特殊需求

）在对话评估、NLG 评测、LLM 对齐等方向有学术发表或开源贡献

）有大规模评测基准（Benchmark）构建或维护经验，熟悉评测集的设计原则与偏差控制

）具备 0→1 评测体系搭建经验，主导过评测流水线从无到有的建设并长期维护迭代

AI 洞察

优缺点分析

优点

加入米哈游，参与顶尖AI游戏项目，接触前沿大模型技术（LLM、RLHF、Agent评估等），技能积累价值高
公司平台大、资源充足，团队协作紧密，有明确的成长空间和行业认可度
工作强度可能较大，需同时推进自动化方案、人工管理、数据分析等多线任务，节奏快
大模型评测领域方法论仍在快速演进，需持续学习最新技术，保持技术敏感度
角色扮演对话的评估主观性强，建立可靠评测体系难度高，需要较强的实验设计和验证能力
适合热爱大模型技术、喜欢系统化思考、具备NLP和评测经验、希望在游戏AI领域深耕的技术专家

缺点 / 挑战

职位负责0→1搭建评测体系，工作内容富有挑战性和创造性，能直接推动产品质量提升

角色解读

向AI评测专家或大模型质量保障负责人发展，成为团队评测体系的核心建设者
积累大模型对齐与角色扮演领域经验，可转向模型训练、AI产品经理或技术Leader
在米哈游的AI游戏前沿环境中，有机会参与定义行业评测标准，提升行业影响力
设计并搭建大模型在游戏角色扮演场景下的评测体系，涵盖角色一致性、对话连贯性等多维度指标
开发自动化评测方案，包括规则脚本、训练评测小模型、LLM-as-Judge等方法，提升评测效率
管理人工标注团队，设计评估规范，确保评测结果可靠
构建数据飞轮，推动模型持续迭代
深入分析模型表现，定位能力短板（如记忆、共情），输出优化建议，与算法产品团队协作改进
扎实的NLP/大模型知识，熟悉SFT/RLHF/DPO等训练方法，能训练Reward Model等小模型
熟练运用LLM-as-Judge、Rubric评估等自动化评测方法，并有实际落地经验
精通Python，能开发评测脚本与平台，熟悉CI/CD集成
具备数据分析能力，能从对话数据中发现模式

申请策略

在面试中准备一个完整的评测体系设计案例，从指标设计到自动化方案到结果分析，展示系统化思维
关注米哈游AI Lab的技术博客或公开演讲，了解公司技术方向，体现对业务的深入理解
突出大模型评测或对话系统评估的实际项目经验，最好有具体指标体系搭建和自动化评测落地的案例
强调模型训练经历（SFT/RLHF/DPO），尤其是Reward Model训练或LLM-as-Judge应用经验
展示数据分析与问题定位能力，例如通过Bad Case分析推动模型优化的成果
如有游戏行业或角色扮演产品相关经验，务必重点提及
系统学习LLM-as-Judge和基于Rubric的评估方法，阅读相关论文并尝试复现
动手训练一个小型Reward Model或分类器，积累实际经验

面试指南

对于体系建设类问题，采用STAR法则：背景-目标-行动-结果，突出指标定义、自动化方案和迭代成果
对于技术方法类问题，先阐述原理，再结合实际案例说明如何克服难点，最后总结经验和教训
请描述你之前搭建的评测体系，包括指标体系设计、自动化评估方法和遇到的问题及解决方案
如何评估角色扮演场景下大模型的对话连贯性和角色一致性？你会设计哪些指标？
你是否有LLM-as-Judge的落地经验？如何保证Judge模型的可靠性和公平性？
谈谈你对Reward Model训练的理解，在RLHF中如何设计评测信号？
假设你发现模型在对话中经常出现记忆遗忘问题，你会如何定位原因并提出优化建议？
复习大模型评测前沿论文（如ChatGPT-Eval、MT-Bench、AgentBench等），总结关键方法论

职位点评

综合评分

米哈游AI评测专家，顶尖技术平台，高薪高压，发展空间巨大。

更适合这类人

适合追求前沿技术成长、高薪资回报，且能接受较强工作节奏的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值85

薪资福利

80较高

米哈游属于超大型企业且自负盈亏，薪资竞争力强；但JD未明确福利与薪资范围，补偿性信息部分缺失。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

职位技术前沿（LLM、奖励模型、Agent评估），涉及体系搭建与数据飞轮，成长性强；JD未明确晋升路径，但大厂通常有内部发展通道。

技术前沿前沿/新兴技术

技术栈LLM、Reward Model、SFT、RLHF、LLM-as-Judge、Python、NLP、CI/CD、数据飞轮

业务类型ambiguous

工作生活

50较低

仅现场办公，工作地点在上海，未提及弹性工作或WLB措施，且互联网大厂普遍节奏较快。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

85较高

AI游戏与角色扮演属于高速增长赛道，技术创新（LLM对齐、Agent评估）对社会有一定正向影响，但非直接社会价值型岗位。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

AI 模型评测专家 - 星布谷地

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

AI 模型评测专家 - 星布谷地

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

StarMaker-推荐算法实习生

2050-Agent算法研究员

2050-算法研究员

StarMaker-语音算法实习生

Lamination & Gluing Engineer - Process

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

StarMaker-推荐算法实习生

2050-Agent算法研究员

2050-算法研究员

StarMaker-语音算法实习生

Lamination & Gluing Engineer - Process

米哈游的其他在招职位

米哈游的其他在招职位