Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
AI评测工程师(LLM方向)
立即应聘

AI评测工程师(LLM方向)

发布于 大约 8 小时前

普通员工/个人贡献者

上海市 / 北京市
中级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
LLM
实验设计
数据清洗
问题分析
自动化评测
大模型评测
Eval
模型能力分析

AI 估算 · 25k–45k

大厂AI岗位薪资较高,技术门槛高,市场稀缺,月薪可达25k-45k

职位详情

关于这个职位

该职位负责大语言模型评测体系的建设与优化,包括设计评测方案、开发自动化评测框架、构建和维护Benchmark、分析模型能力等

你将与研发团队紧密合作,用系统化评测驱动模型能力提升,跟踪行业前沿
适合对LLM有深入理解、喜欢解决复杂问题、追求技术深度的工程师

最低要求

本科及以上学历

熟练掌握 Python,具备较强工程能力与代码能力
具备较强的问题分析能力、实验设计能力与自主探索能力
有大模型评测相关经验,包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等
有 LLM Eval 相关经验,对模型训练与迭代过程中的评测方法有一定理解
熟悉开源 Benchmark、评测框架或评测方法论,对评测集构建、优化与质量分析有实践经验

工作职责

负责大语言模型(LLM)评测体系建设,包括评测方案设计、评测指标定义、评测流程标准化等,建立可持续演进的评测能力体系

负责评测框架开发与维护,建设自动化、可扩展、高可靠的评测系统,提高评测效率与覆盖度
负责 Public Benchmark 与 In-house Benchmark 的建设与维护,包括评测集构建、数据清洗、版本管理、持续迭代与优化
根据模型迭代重点与业务需求,持续补充评测维度,动态优化评测集结构,提升评测集有效性与区分度
深入分析模型能力边界与问题分布,识别模型优势、短板与退化风险,建立问题发现与质量拦截机制
跟踪行业模型发展趋势,对主流模型进行横向评测与能力分析,量化模型能力变化与行业水平
参与模型训练与迭代过程中的评测建设,支撑模型研发闭环

AI 洞察

优缺点分析

优点

  • 站在AI前沿,深度参与大模型迭代,技术价值高
  • 米哈游平台资源丰富,薪酬福利有竞争力
  • 工作内容多样,涉及工程、数据、分析,成长空间大
  • 评测工作对严谨性和细节要求高,需要耐心和细致
  • 需要持续跟踪模型进展,保持技术敏感性
  • 可能面临评估标准不统一、数据偏差等复杂问题
  • 适合热爱AI技术、喜欢系统化思考、具备较强编程和数据分析能力的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 技术深耕:成为大模型评测领域的专家,主导评测体系架构
  • 研发转管理:带领评测团队,规划评测方向与资源
  • 横向拓展:向AI训练、推理优化等方向扩展,成为全栈AI工程师
  • 设计和优化大语言模型的评测方案,包括指标定义和流程标准化
  • 开发自动化评测框架,提高评测效率和覆盖度
  • 构建和维护评测数据集(Benchmark),进行数据清洗和版本管理
  • 深入分析模型能力,识别问题并驱动模型迭代改进
  • 精通Python编程,具备扎实的工程能力,能独立开发评测系统
  • 熟悉大模型评测方法论,掌握Eval相关工具和框架
  • 具备实验设计和数据分析能力,能系统性地分析模型表现
  • 了解NLP和深度学习基础,对Transformer架构有认识

申请策略

  • 关注米哈游的技术博客或开源项目,了解其AI技术方向
  • 准备一个你设计的评测方案案例,展示系统性思维
  • 突出大模型评测或相关项目经历,列出具体贡献和成果
  • 强调Python开发能力,可附上GitHub链接或代码示例
  • 展示对Benchmark和评测方法的理解,如使用过哪些框架
  • 深入学习LLM原理和常见的评测方法(如MMLU、HumanEval)
  • 练习使用开源评测框架(如lm-evaluation-harness)
  • 加强数据分析和可视化能力,用于呈现评测结果

面试指南

  • 先明确问题目标(评估什么能力),再选择指标(准确率、F1等),最后说明验证方法
  • 从数据收集、清洗、标注、采样等环节阐述数据质量保障措施
  • 结合具体项目经验,展示分析问题的能力和系统性思维
  • 请描述你用过的大模型评测框架,它们各自的优缺点是什么?
  • 如何设计一个评测指标来评估模型在某个垂直领域的表现?
  • 遇到模型评估结果与人工评审不一致时,你会如何分析?
  • 你如何确保评测数据的质量和一致性?
  • 请谈谈你对LLM评测未来趋势的看法

匹配度报告

71
综合匹配度

大厂AI前沿岗位,技术成长快,薪资高,但工作地点固定且可能有加班。

适合人群
该职位最适合追求技术成长、喜欢前沿AI领域的求职者,若看重工作生活平衡则需谨慎考虑。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活50
使命价值60

薪资福利匹配

85较高

米哈游作为头部游戏公司,薪资水平高于市场平均,福利完善,但JD未明确薪资范围,属于面议。

薪资信号面议 (25K-45K/月)

成长发展匹配

90较高

该职位直接参与大模型核心研发,技术前沿,成长迅速。JD明确提及评测体系持续迭代与创新,有大量学习机会。

技术前沿前沿/新兴技术
技术栈LLM、大模型评测、Benchmark、自动化评测、数据清洗
成长机会持续演进、持续迭代、持续补充
业务类型profit_center

工作生活匹配

50较低

工作地点在上海或北京,未提及远程或弹性工作,推测为现场办公。大型互联网公司通常工作强度较高。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

60中等

AI评测对模型能力提升有直接贡献,但社会影响中性,游戏行业偏娱乐方向。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 18k-28k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 4k-8k
  • 招聘HR实习生

    米哈游 · 上海市
    AI 估算 · 4k-6k
  • AI 研发工程师(场景管线)

    米哈游 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • Damper Application & Development Engineer

    采埃孚 · 上海市
    AI 估算 · 15k-25k
  • 算法工程师(重疾AI-MDT)

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • 算法工程师(Agent方向)

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 音频理解大模型算法实习生

    网易 · 杭州市
    AI 估算 · 5k-8k
  • User Experience Engineer

    罗技 · 苏州市
    AI 估算 · 15k-25k

米哈游 的其他在招职位

  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 18k-28k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • AI评测工程师(LLM方向)

    米哈游 · 上海市
    AI 估算 · 4k-8k
  • 招聘HR实习生

    米哈游 · 上海市
    AI 估算 · 4k-6k
  • AI 研发工程师(场景管线)

    米哈游 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • Damper Application & Development Engineer

    采埃孚 · 上海市
    AI 估算 · 15k-25k
  • 算法工程师(重疾AI-MDT)

    中国平安 · 深圳市
    AI 估算 · 25k-45k
  • 算法工程师(Agent方向)

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 音频理解大模型算法实习生

    网易 · 杭州市
    AI 估算 · 5k-8k
  • User Experience Engineer

    罗技 · 苏州市
    AI 估算 · 15k-25k