Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
AI评测工程师(LLM方向)
立即应聘

AI评测工程师(LLM方向)

发布于 大约 8 小时前

实习/见习

上海市 / 北京市
无经验要求
实习生
仅现场办公
本科
研究与开发 (研发)
NLP
LLM
自动化框架
数据清洗
大模型评测
模型能力分析

AI 估算 · 4k–8k

实习岗位,参考互联网大厂实习薪资,日薪约200-400元,按22天计算。

职位详情

关于这个职位

作为AI评测实习生,你将参与米哈游大语言模型评测体系的建设与迭代,负责评测方案设计、自动化框架开发以及benchmark维护,支撑模型能力提升

工作涉及数据清洗、评测集构建、模型能力分析等,适合对NLP和模型评测感兴趣的在校生

最低要求

本科及以上学历

熟练掌握 Python,具备较强工程能力与代码能力
具备较强的问题分析能力、实验设计能力与自主探索能力
有大模型评测相关经验,包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等
有 LLM Eval 相关经验,对模型训练与迭代过程中的评测方法有一定理解
熟悉开源 Benchmark、评测框架或评测方法论,对评测集构建、优化与质量分析有实践经验

工作职责

建设可持续演进的大模型评测体系

提升评测自动化程度与评测效率
推动评测数据、评测框架与评测方法持续迭代
用系统化评测驱动模型能力提升
负责大语言模型(LLM)评测体系建设,包括评测方案设计、评测指标定义、评测流程标准化等,建立可持续演进的评测能力体系
负责评测框架开发与维护,建设自动化、可扩展、高可靠的评测系统,提高评测效率与覆盖度
负责 Public Benchmark 与 In-house Benchmark 的建设与维护,包括评测集构建、数据清洗、版本管理、持续迭代与优化
根据模型迭代重点与业务需求,持续补充评测维度,动态优化评测集结构,提升评测集有效性与区分度
深入分析模型能力边界与问题分布,识别模型优势、短板与退化风险,建立问题发现与质量拦截机制
跟踪行业模型发展趋势,对主流模型进行横向评测与能力分析,量化模型能力变化与行业水平
参与模型训练与迭代过程中的评测建设,支撑模型研发闭环

AI 洞察

优缺点分析

优点

  • 接触前沿LLM技术,参与大模型评测体系建设,技能积累快
  • 米哈游平台大,公司盈利稳定,实习转正机会大
  • 大模型领域变化快,需要持续学习跟踪行业动态
  • 适合对NLP和模型评测有浓厚兴趣、具备较强编程能力的在校生,希望通过实习积累大模型实战经验

缺点 / 挑战

  • 工作内容有挑战性,涉及自动化、数据、分析等多方面,成长空间大
  • 需要较强的工程能力和问题分析能力,对实习生要求较高
  • 评测工作可能较为繁琐,需要处理大量数据和重复性任务

角色解读

  • 成长为评测专家,深入模型能力分析,参与模型训练闭环
  • 可向AI研究员或算法工程师发展,积累LLM实战经验
  • 在米哈游可转正为正式员工,参与核心游戏AI研发
  • 负责设计LLM评测方案,定义评测指标和流程,建立可持续的评测体系
  • 开发自动化评测框架,提高评测效率和覆盖度
  • 构建和维护Public/In-house Benchmark,包括数据清洗、版本管理
  • 分析模型能力分布,识别优势短板,驱动模型迭代
  • 熟练掌握Python,具备工程能力,能够开发评测框架
  • 了解大模型评测方法,熟悉开源Benchmark和评测框架
  • 善于问题分析和实验设计,能通过数据驱动决策
  • 对NLP和机器学习有基本理解

申请策略

  • 关注米哈游游戏业务场景,思考评测如何辅助游戏AI
  • 准备一个自己做的LLM评测相关小项目,增加竞争力
  • 突出Python编程能力,提供GitHub链接或相关项目代码
  • 强调大模型相关项目经验,如使用过评测框架或参与过benchmark构建
  • 体现数据分析和实验设计能力,列举相关课程或研究
  • 提前熟悉常见LLM评测框架如lm-evaluation-harness、OpenCompass等
  • 补强数据清洗和自动化脚本编写能力,学习pandas、numpy等
  • 了解Transformers库和常见模型架构

面试指南

  • 针对框架问题:先简述框架功能,再谈实际使用经验,最后对比其他框架
  • 针对设计问题:明确目标 -> 定义维度 -> 选择指标 -> 构建数据 -> 分析结果
  • 针对数据问题:描述清洗流程,如去重、格式统一、异常值检测等
  • 请介绍你熟悉的一个LLM评测框架,它的优缺点是什么?
  • 如何设计一个评测方案来测试模型的多轮对话能力?
  • 有一批评测数据存在脏数据,你如何处理?
  • 你如何评估一个评测指标的有效性?
  • 复现一些经典paper的评测实验,理解评测逻辑

匹配度报告

62
综合匹配度

大厂实习、前沿技术、成长性极高,但实习薪资和稳定性一般。

适合人群
适合追求技术成长、希望积累大模型经验的在校生,对短期薪资和福利要求不高。
最强匹配
成长发展匹配
最弱匹配
薪资福利匹配
薪资福利50
成长发展90
工作生活50
使命价值60

薪资福利匹配

50较低

实习薪资处于行业中上水平,但作为实习岗位,薪资和稳定性有限。米哈游福利较好,但JD未提及具体福利。

薪资信号未披露(AI估算:4K-8K/月)

成长发展匹配

90较高

该职位提供前沿LLM技术实践,评测体系建设可深度参与模型研发闭环,成长空间大。

技术前沿前沿/新兴技术
技术栈LLM、大模型评测、Benchmark、Python
成长机会可持续演进、持续迭代、跟踪行业趋势
业务类型ambiguous

工作生活匹配

50较低

仅现场办公,地点在上海和北京,通勤可能不便。但米哈游可能提供弹性工时,JD未明确。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

参与AI前沿技术有一定社会价值,但评测工作本身直接社会影响力有限。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 18k-28k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • 招聘HR实习生

    米哈游 · 上海市
    AI 估算 · 4k-6k
  • AI 研发工程师(场景管线)

    米哈游 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • Damper Application & Development Engineer

    采埃孚 · 上海市
    AI 估算 · 15k-25k
  • 算法工程师(重疾AI-MDT)

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • 算法工程师(Agent方向)

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 音频理解大模型算法实习生

    网易 · 杭州市
    AI 估算 · 5k-8k
  • User Experience Engineer

    罗技 · 苏州市
    AI 估算 · 15k-25k

米哈游 的其他在招职位

  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 18k-28k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • 招聘HR实习生

    米哈游 · 上海市
    AI 估算 · 4k-6k
  • AI 研发工程师(场景管线)

    米哈游 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • Damper Application & Development Engineer

    采埃孚 · 上海市
    AI 估算 · 15k-25k
  • 算法工程师(重疾AI-MDT)

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • 算法工程师(Agent方向)

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 音频理解大模型算法实习生

    网易 · 杭州市
    AI 估算 · 5k-8k
  • User Experience Engineer

    罗技 · 苏州市
    AI 估算 · 15k-25k