Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
AI评测工程师(LLM方向)
立即应聘

AI评测工程师(LLM方向)

发布于 大约 8 小时前

普通员工/个人贡献者

上海市 / 北京市
中级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
自动化
LLM
数据清洗
大模型评测
评测框架
Eval
模型能力分析

AI 估算 · 18k–28k

米哈游作为行业领先游戏公司,薪资竞争力强,AI评测岗位技术要求高,校招薪资通常较高,参考行业水平及城市因素。

职位详情

关于这个职位

作为AI评测工程师,你将负责构建和完善大语言模型的评测体系,包括评测方案设计、自动化评测系统开发、基准数据集建设等

你将深入分析模型能力边界,推动模型迭代优化,并跟踪行业前沿趋势
该职位要求扎实的Python工程能力、大模型评测经验以及对模型研发闭环的深入理解

最低要求

本科及以上学历

熟练掌握 Python,具备较强工程能力与代码能力
具备较强的问题分析能力、实验设计能力与自主探索能力
有大模型评测相关经验,包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等
有 LLM Eval 相关经验,对模型训练与迭代过程中的评测方法有一定理解
熟悉开源 Benchmark、评测框架或评测方法论,对评测集构建、优化与质量分析有实践经验

工作职责

负责大语言模型(LLM)评测体系建设,包括评测方案设计、评测指标定义、评测流程标准化等,建立可持续演进的评测能力体系

负责评测框架开发与维护,建设自动化、可扩展、高可靠的评测系统,提高评测效率与覆盖度
负责 Public Benchmark 与 In-house Benchmark 的建设与维护,包括评测集构建、数据清洗、版本管理、持续迭代与优化
根据模型迭代重点与业务需求,持续补充评测维度,动态优化评测集结构,提升评测集有效性与区分度
深入分析模型能力边界与问题分布,识别模型优势、短板与退化风险,建立问题发现与质量拦截机制
跟踪行业模型发展趋势,对主流模型进行横向评测与能力分析,量化模型能力变化与行业水平
参与模型训练与迭代过程中的评测建设,支撑模型研发闭环

AI 洞察

优缺点分析

优点

  • 身处大模型热门赛道,技术前沿,积累宝贵经验
  • 米哈游平台资源丰富,接触大规模模型研发流程
  • 对技术深度和广度要求高,需同时掌握工程、数据和模型知识
  • 技术迭代快,需要持续学习最新评测方法和工具
  • 适合对NLP和大模型有浓厚兴趣,具备扎实编程能力和数据分析思维,喜欢系统性解决问题的技术型求职者

缺点 / 挑战

  • 工作内容具有挑战性,能深度参与模型能力提升,成就感强
  • 评测工作较为繁琐,需耐心处理数据细节和重复性任务

角色解读

  • 可向AI评测专家或大模型训练专家方向发展,深入模型研发核心
  • 也可转向AI平台架构师,负责评测系统与基础设施的架构设计
  • 随着经验积累,可晋升为技术主管或项目经理,带领评测团队
  • 设计和维护大模型评测体系,包括制定评测方案、定义指标和标准化流程
  • 开发自动化评测框架和工具,提升评测效率和可靠性
  • 构建和优化各类评测数据集(公开与内部),确保数据质量和覆盖度
  • 分析模型表现,定位能力短板,为模型迭代提供量化依据
  • 熟练掌握Python编程,具备较强的工程和代码能力
  • 深入了解大模型评测方法,熟悉开源Benchmark和评测框架
  • 具备数据分析和问题诊断能力,能设计实验验证模型能力变化
  • 了解模型训练与迭代流程,能配合研发团队进行评测闭环

申请策略

  • 关注米哈游在AI领域的布局和产品,面试时展现对游戏AI场景的理解
  • 提前准备一个自己设计或参与的评测案例,详细说明方法论和结果
  • 突出大模型评测相关项目经验,如Benchmark构建、评测框架开发等
  • 强调Python工程能力,如参与的开源项目或高质量代码作品
  • 展示数据分析与问题解决案例,尤其是通过评测驱动模型改进的经历
  • 巩固Python编程,熟悉常用评测框架如LM Eval Harness、OpenCompass等
  • 了解主流大模型(GPT、LLaMA、ChatGLM等)的评测方法与指标
  • 学习数据清洗和自动化测试相关技术,提升评测效率

面试指南

  • STAR法则:描述情境、任务、行动和结果,突出个人贡献和量化成果
  • 问题分析类:先定义问题边界,再提出假设,设计实验验证,最后总结
  • 技术方案类:从需求出发,对比不同方案优缺点,选择合理方案并说明理由
  • 请描述你参与过的大模型评测项目,你是如何设计评测方案和指标的?
  • 如何评估一个Benchmark的质量?你认为一个好的评测集应具备哪些特性?
  • 如果模型在某个评测集上分数很高但实际效果不好,你会如何排查?
  • 请解释你在构建自动化评测系统时遇到的技术挑战及解决方案
  • 对当前主流的LLM评测框架(如HELM、OpenCompass)有何看法?优缺点?

匹配度报告

69
综合匹配度

前沿AI评测岗位,技术成长极快,但加班和现场办公限制生活灵活性。

适合人群
最适合追求技术成长和职业发展、愿意投入高强度学习与工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活40
使命价值70

薪资福利匹配

75中等

米哈游作为知名游戏公司,薪资水平和福利待遇在行业中具有较强竞争力,但JD未明确具体薪资和详细福利,因此评分中等偏上。

薪资信号未披露(AI估算:18K-28K/月)

成长发展匹配

90较高

该职位处于大模型技术前沿,涉及评测体系建设和自动化开发,技能成长空间大,且JD中强调持续迭代和跟踪行业趋势,发展性动机满足度高。

技术前沿前沿/新兴技术
技术栈LLM、大模型评测、Python、Benchmark、评测框架、自动化、数据清洗
成长机会持续迭代、跟踪行业模型发展趋势、推动评测数据、框架与方法持续迭代
业务类型ambiguous

工作生活匹配

40较低

JD未提及工作地点灵活性或工作生活平衡相关福利,且米哈游通常为现场办公,上海/北京通勤压力大,生活化动机满足度较低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI评测岗位直接推动大模型能力提升,技术影响力大,属于高速增长赛道,但社会价值偏向技术驱动而非直接造福社会,评分为中等偏上。

行业发展高速增长赛道
社会影响中性/一般
使命信号用系统化评测驱动模型能力提升
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 4k-8k
  • 招聘HR实习生

    米哈游 · 上海市
    AI 估算 · 4k-6k
  • AI 研发工程师(场景管线)

    米哈游 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • Damper Application & Development Engineer

    采埃孚 · 上海市
    AI 估算 · 15k-25k
  • 算法工程师(重疾AI-MDT)

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • 算法工程师(Agent方向)

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 音频理解大模型算法实习生

    网易 · 杭州市
    AI 估算 · 5k-8k
  • User Experience Engineer

    罗技 · 苏州市
    AI 估算 · 15k-25k

米哈游 的其他在招职位

  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 4k-8k
  • 招聘HR实习生

    米哈游 · 上海市
    AI 估算 · 4k-6k
  • AI 研发工程师(场景管线)

    米哈游 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • Damper Application & Development Engineer

    采埃孚 · 上海市
    AI 估算 · 15k-25k
  • 算法工程师(重疾AI-MDT)

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • 算法工程师(Agent方向)

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 音频理解大模型算法实习生

    网易 · 杭州市
    AI 估算 · 5k-8k
  • User Experience Engineer

    罗技 · 苏州市
    AI 估算 · 15k-25k