miHoYo logo
米哈游
AI评测工程师(LLM方向)

AI评测工程师(LLM方向)

发布于 大约 8 小时前

普通员工/个人贡献者

上海市 / 北京市
中级经验
全职员工
仅现场办公
本科
软件工程
机器学习
模型评估
数据分析
自动化测试
LLM
大模型评测

AI 估算 · 25k–45k

大厂核心AI岗位,技术门槛高,市场稀缺,薪资竞争力强。

职位详情

关于这个职位

该职位主要负责大语言模型(LLM)评测体系的建设与优化,包括评测方案设计、框架开发、数据集构建与维护,以及模型能力分析

你将参与从评测自动化到模型迭代的全流程,推动模型能力持续提升
适合对AI评测、模型评估有浓厚兴趣的技术人才

最低要求

本科及以上学历

熟练掌握 Python,具备较强工程能力与代码能力
具备较强的问题分析能力、实验设计能力与自主探索能力
有大模型评测相关经验,包括但不限于评测框架开发、Benchmark 构建、数据集建设、模型能力分析等
有 LLM Eval 相关经验,对模型训练与迭代过程中的评测方法有一定理解
熟悉开源 Benchmark、评测框架或评测方法论,对评测集构建、优化与质量分析有实践经验

工作职责

负责大语言模型(LLM)评测体系建设,包括评测方案设计、评测指标定义、评测流程标准化等,建立可持续演进的评测能力体系

负责评测框架开发与维护,建设自动化、可扩展、高可靠的评测系统,提高评测效率与覆盖度
负责 Public Benchmark 与 In-house Benchmark 的建设与维护,包括评测集构建、数据清洗、版本管理、持续迭代与优化
根据模型迭代重点与业务需求,持续补充评测维度,动态优化评测集结构,提升评测集有效性与区分度
深入分析模型能力边界与问题分布,识别模型优势、短板与退化风险,建立问题发现与质量拦截机制
跟踪行业模型发展趋势,对主流模型进行横向评测与能力分析,量化模型能力变化与行业水平
参与模型训练与迭代过程中的评测建设,支撑模型研发闭环

AI 洞察

优缺点分析

优点

  • 身处AI大模型前沿领域,接触最新技术和方法
  • 米哈游作为头部游戏公司,技术氛围浓厚,资源充足
  • 岗位核心,对模型能力提升有直接影响力
  • 技能积累通用性强,未来可在AI行业广泛应用
  • 行业变化快,需要不断跟踪新技术和新方法
  • 适合对AI评测有热情,具备扎实编程能力和分析思维,希望在AI质量保障领域深入发展的技术人才

缺点 / 挑战

  • 评测体系建设需要持续投入,工作强度可能较高
  • 需要对模型有深入理解,技术门槛较高

角色解读

  • 深耕AI评测领域,成为评测专家或质量保障负责人
  • 转向模型研发,利用评测经验更深入地参与模型训练和优化
  • 横向扩展至AI平台或工具链开发,负责更大范围的测试基础设施
  • 设计和构建大语言模型的评测体系,包括评测指标、流程和自动化框架
  • 维护和优化公开及内部Benchmark数据集,确保评测的有效性和区分度
  • 分析模型能力边界与问题分布,识别模型短板并推动改进
  • 跟踪行业模型动态,进行横向评测和量化分析
  • 精通Python,具备扎实的工程和代码能力
  • 熟悉大模型评测方法学,有评测框架或Benchmark构建经验
  • 优秀的问题分析和实验设计能力,能独立探索和解决问题
  • 了解LLM训练和迭代流程,理解评测在其中的作用

申请策略

  • 关注米哈游的技术博客和产品动态,了解其AI战略方向
  • 面试前准备一个你主导或参与的评测项目复盘,体现系统思考能力
  • 突出大模型评测或相关项目经验,如Benchmark构建、评测框架开发
  • 展示Python工程能力和自动化工具开发案例
  • 强调问题分析和实验设计能力,可附上具体技术方案
  • 如有开源贡献或相关论文,务必列出
  • 深入学习主流LLM评测框架(如HELM、LM Eval Harness)的使用和原理
  • 熟悉数据清洗和数据集构建工具,提高数据处理能力

面试指南

  • 使用STAR法则描述项目:情境、任务、行动、结果,突出个人贡献和思考
  • 对设计类问题,从目标、指标、数据集、流程、迭代等角度系统性回答
  • 对分析类问题,展示假设驱动和逐步排除的分析思路
  • 请介绍你参与过的大模型评测项目,包括评测方案设计和遇到的问题
  • 如何设计一个有效的Benchmark来评估LLM的推理能力?
  • 在评测过程中,如何处理数据偏差和过拟合问题?
  • 你如何看待当前主流LLM评测框架的优缺点?
  • 如果模型在某个指标上表现突然下降,你会如何排查原因?

匹配度报告

65
综合匹配度

大厂核心AI评测岗,前沿技术栈,成长空间大,薪资未透露,WLB不确定。

适合人群
该职位最适合发展性动机强的求职者,追求技术成长和前沿领域,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利60
成长发展85
工作生活50
使命价值65

薪资福利匹配

60中等

薪资未明确披露,但基于行业和公司规模,预计薪资具有竞争力,但缺乏详细福利信息。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

85较高

岗位涉及前沿AI技术,持续迭代评测体系,成长空间大,但未明确提及晋升路径。

技术前沿前沿/新兴技术
技术栈LLM、大模型、机器学习、Python、Benchmark、自动化测试
业务类型ambiguous

工作生活匹配

50较低

办公地点未明确,无远程或弹性工作信息,可能为常规办公模式。

工作模式未明确
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

65中等

AI大模型行业高速增长,但社会影响力中性,创新性积极。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs