Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
AI 模型评测专家 - 星布谷地
立即应聘

AI 模型评测专家 - 星布谷地

发布于 大约 13 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
NLP
自动化测试
LLM
对话系统
Sft/Rlhf
大模型评测
Llm-As-Judge
Reward Model
数据飞轮

AI 估算 · 30k–50k

米哈游AI核心岗位,大模型评测人才稀缺,薪资对标一线大厂,竞争力强

职位详情

关于这个职位

该职位负责搭建并优化米哈游游戏场景中大模型的全链路评测体系,包括自动化评测方案设计、人工评估管理、数据飞轮构建与模型能力分析

你将与算法、产品团队紧密合作,推动大模型在角色扮演对话中的持续迭代,是保障AI对话体验质量的关键角色

最低要求

)本科及以上学历,计算机科学、人工智能、NLP、数据科学等相关专业

)2年以上AI/NLP领域相关经验,有大模型评测体系搭建、模型质量保障、或对话系统评估的实际项目经验
)有开放域对话、角色扮演、或聊天产品相关的评测或业务经验,深刻理解无标准答案场景下的评估难点与方法论
)具备模型训练经验(SFT/RLHF/DPO),能够训练或微调评测用小模型(如 Reward Model、分类器等),了解 LLM 基本原理与 Agent 构建
)熟悉人工评估流程设计与标注管理,有过标注方案设计、标注质量控制、标注数据管理的经验
)熟悉 LLM-as-Judge、基于 Rubric 的生成式评估等自动化评测方法,有实际落地经验
)掌握 Python 等编程语言,具备自动化评测脚本开发与评测平台搭建能力,熟悉 CI/CD 集成流程
)具备优秀的数据分析能力,善于从大量对话数据中发现问题模式、定位 Bad Case、提炼优化方向

工作职责

)评测体系搭建:负责游戏体验与角色扮演场景下大模型的全链路评测体系建设,设计覆盖多维度的评测指标体系(如角色一致性、对话连贯性、情感表现力、安全性、创意性等),建立从数据构建→评测执行→结果分析→问题定位→模型迭代的完整评测流水线

)自动化评测方案:设计并落地多层级自动化评测方案,包括但不限于:基于规则/脚本的自动化测试、训练专用评测小模型(Reward Model/Classifier)、基于大语言模型的 LLM-as-Judge 评估、基于 Rubric 的生成式评分方案,持续提升评测效率与覆盖度
)人工评估与标注管理:设计人工评估方案与标注规范,管理标注团队与标注流程,建立人工评估与自动化评估的校准机制,确保评测结果的可靠性与一致性
)数据飞轮与持续迭代:构建"评测—发现问题—数据积累—模型优化—再评测"的数据飞轮闭环,系统性沉淀 Bad Case 库、评测集、评测基准,支撑模型团队快速实验迭代
)深度分析与问题定位:深入分析评测结果,挖掘模型在开放域对话中的能力短板(如记忆遗忘、共情差、逻辑冲突等),输出可执行的优化建议,与算法、产品团队协作推动模型持续改进
)前沿跟踪与方法创新:跟踪业界对话/角色扮演评测的前沿方法(如 Agent 评估框架、多轮对话评估基准、主观开放域评估方法论),引入并适配适合游戏场景的评测工具与方法

优先资格

)深度体验过多款 AI 游戏/AI对话/角色扮演产品,对不同产品的对话体验有系统性理解和独立判断

)有奖励模型(Reward Model)训练与应用经验,了解 RLHF/RLAIF 流程中评测信号的设计与优化
)有游戏行业相关经验,理解游戏叙事、角色设定、世界观一致性等特殊需求
)在对话评估、NLG 评测、LLM 对齐等方向有学术发表或开源贡献
)有大规模评测基准(Benchmark)构建或维护经验,熟悉评测集的设计原则与偏差控制
)具备 0→1 评测体系搭建经验,主导过评测流水线从无到有的建设并长期维护迭代

AI 洞察

优缺点分析

优点

  • 加入米哈游,参与顶尖AI游戏项目,接触前沿大模型技术(LLM、RLHF、Agent评估等),技能积累价值高
  • 公司平台大、资源充足,团队协作紧密,有明确的成长空间和行业认可度
  • 工作强度可能较大,需同时推进自动化方案、人工管理、数据分析等多线任务,节奏快
  • 大模型评测领域方法论仍在快速演进,需持续学习最新技术,保持技术敏感度
  • 角色扮演对话的评估主观性强,建立可靠评测体系难度高,需要较强的实验设计和验证能力
  • 适合热爱大模型技术、喜欢系统化思考、具备NLP和评测经验、希望在游戏AI领域深耕的技术专家

缺点 / 挑战

  • 职位负责0→1搭建评测体系,工作内容富有挑战性和创造性,能直接推动产品质量提升

角色解读

  • 向AI评测专家或大模型质量保障负责人发展,成为团队评测体系的核心建设者
  • 积累大模型对齐与角色扮演领域经验,可转向模型训练、AI产品经理或技术Leader
  • 在米哈游的AI游戏前沿环境中,有机会参与定义行业评测标准,提升行业影响力
  • 设计并搭建大模型在游戏角色扮演场景下的评测体系,涵盖角色一致性、对话连贯性等多维度指标
  • 开发自动化评测方案,包括规则脚本、训练评测小模型、LLM-as-Judge等方法,提升评测效率
  • 管理人工标注团队,设计评估规范,确保评测结果可靠
  • 构建数据飞轮,推动模型持续迭代
  • 深入分析模型表现,定位能力短板(如记忆、共情),输出优化建议,与算法产品团队协作改进
  • 扎实的NLP/大模型知识,熟悉SFT/RLHF/DPO等训练方法,能训练Reward Model等小模型
  • 熟练运用LLM-as-Judge、Rubric评估等自动化评测方法,并有实际落地经验
  • 精通Python,能开发评测脚本与平台,熟悉CI/CD集成
  • 具备数据分析能力,能从对话数据中发现模式

申请策略

  • 在面试中准备一个完整的评测体系设计案例,从指标设计到自动化方案到结果分析,展示系统化思维
  • 关注米哈游AI Lab的技术博客或公开演讲,了解公司技术方向,体现对业务的深入理解
  • 突出大模型评测或对话系统评估的实际项目经验,最好有具体指标体系搭建和自动化评测落地的案例
  • 强调模型训练经历(SFT/RLHF/DPO),尤其是Reward Model训练或LLM-as-Judge应用经验
  • 展示数据分析与问题定位能力,例如通过Bad Case分析推动模型优化的成果
  • 如有游戏行业或角色扮演产品相关经验,务必重点提及
  • 系统学习LLM-as-Judge和基于Rubric的评估方法,阅读相关论文并尝试复现
  • 动手训练一个小型Reward Model或分类器,积累实际经验

面试指南

  • 对于体系建设类问题,采用STAR法则:背景-目标-行动-结果,突出指标定义、自动化方案和迭代成果
  • 对于技术方法类问题,先阐述原理,再结合实际案例说明如何克服难点,最后总结经验和教训
  • 请描述你之前搭建的评测体系,包括指标体系设计、自动化评估方法和遇到的问题及解决方案
  • 如何评估角色扮演场景下大模型的对话连贯性和角色一致性?你会设计哪些指标?
  • 你是否有LLM-as-Judge的落地经验?如何保证Judge模型的可靠性和公平性?
  • 谈谈你对Reward Model训练的理解,在RLHF中如何设计评测信号?
  • 假设你发现模型在对话中经常出现记忆遗忘问题,你会如何定位原因并提出优化建议?
  • 复习大模型评测前沿论文(如ChatGPT-Eval、MT-Bench、AgentBench等),总结关键方法论

匹配度报告

76
综合匹配度

米哈游AI评测专家,顶尖技术平台,高薪高压,发展空间巨大。

适合人群
适合追求前沿技术成长、高薪资回报,且能接受较强工作节奏的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活50
使命价值85

薪资福利匹配

80较高

米哈游属于超大型企业且自负盈亏,薪资竞争力强;但JD未明确福利与薪资范围,补偿性信息部分缺失。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

90较高

职位技术前沿(LLM、奖励模型、Agent评估),涉及体系搭建与数据飞轮,成长性强;JD未明确晋升路径,但大厂通常有内部发展通道。

技术前沿前沿/新兴技术
技术栈LLM、Reward Model、SFT、RLHF、LLM-as-Judge、Python、NLP、CI/CD、数据飞轮
业务类型ambiguous

工作生活匹配

50较低

仅现场办公,工作地点在上海,未提及弹性工作或WLB措施,且互联网大厂普遍节奏较快。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

85较高

AI游戏与角色扮演属于高速增长赛道,技术创新(LLM对齐、Agent评估)对社会有一定正向影响,但非直接社会价值型岗位。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • LLM Post-train 算法工程师 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 35k-60k

相似职位推荐

  • 算法研究员

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • 拔尖计划-人工智能专家

    中国移动 · 上海市
    AI 估算 · 50k-80k
  • Intern_Inno Mgmt/创新管理实习生(AI 产品)

    奔驰 · 北京市
    AI 估算 · 3k-5k
  • 伐谋产品组_R&D Pioneer 计划算法实习生(J100093)

    百度 · 北京市
    AI 估算 · 4k-8k
  • 计算机视觉及多模态算法实习生(J100103)

    百度 · 成都市
    AI 估算 · 4k-6k

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • LLM Post-train 算法工程师 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 35k-60k

相似职位推荐

  • 算法研究员

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • 拔尖计划-人工智能专家

    中国移动 · 上海市
    AI 估算 · 50k-80k
  • Intern_Inno Mgmt/创新管理实习生(AI 产品)

    奔驰 · 北京市
    AI 估算 · 3k-5k
  • 伐谋产品组_R&D Pioneer 计划算法实习生(J100093)

    百度 · 北京市
    AI 估算 · 4k-8k
  • 计算机视觉及多模态算法实习生(J100103)

    百度 · 成都市
    AI 估算 · 4k-6k