Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
LLM Post-train 算法研究员
立即应聘

LLM Post-train 算法研究员

发布于 大约 12 小时前

实习/见习

上海市
无经验要求
实习生
仅现场办公
硕士
PyTorch
LLM
SFT
Megatron-LM
DeepSpeed
PPO
RLHF
DPO
MoE
Grpo

AI 估算 · 8k–15k

一线大厂算法实习生薪资较高,结合技术难度和顶尖公司背景,月薪约8-15K

职位详情

关于这个职位

该职位聚焦于大语言模型的后训练算法研发,包括SFT、RLHF、DPO等对齐方法,以及强化学习训练优化

你将参与游戏内容生成、角色扮演等场景的模型能力提升,涉及数据工程与前沿技术探索
适合对LLM对齐和RL有浓厚兴趣的在校硕士/博士

最低要求

)2027/2028 届在校硕士及以上学历,计算机科学、人工智能、机器学习、NLP 或相关专业

)熟悉 Transformer / MoE 架构原理,熟练使用 PyTorch 及主流大模型训练/推理框架(如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等)
)具备扎实的强化学习基础,理解 PPO/DPO/GRPO 等算法原理,有将 RL 方法应用于语言模型对齐的实践经验
)有 LLM 微调、对话系统训练或文本生成相关的研究或项目经验,了解分布式训练基础知识
)具备较强的代码工程能力和实验设计能力,能够快速实现和验证算法思路
)对数据质量敏感,了解 SFT 数据、偏好数据和奖励信号对模型效果的影响机制
)具备良好的学习能力和逻辑思维,对 AI 前沿技术有持续热情

工作职责

)后训练算法研发:参与游戏内容、角色扮演等场景下大模型的后训练(Post-training)算法研发工作,涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化,提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力

)奖励模型训练:参与 Reward Model 的设计与训练,探索面向对话质量、情感表达、角色一致性、安全性等维度的奖励信号构建,支撑强化学习训练流程
)强化学习训练优化:参与基于 PPO/GRPO 等算法的大模型对齐训练,探索训练稳定性、采样效率和效果提升方法,支持模型在复杂多轮对话和开放域生成场景中的优化
)数据工程:参与后训练阶段的数据构建工作,包括 SFT 数据设计、偏好数据采集与标注、数据清洗与质量评估,探索数据合成、数据增强与数据混合策略
)多类型模型训练:参与辅助模型(如分类器、决策模型等)的训练与调优,支撑模型产品体系建设
)实验与迭代:完成训练实验的设计与执行,分析实验结果,定位模型表现问题,提出改进方案并在时延要求内推动落地
)前沿技术探索:跟踪 Post-training 领域最新研究进展(如 RLAIF、On-Policy Distillation、推理链压缩等),结合游戏对话业务需求进行技术预研与创新落地

优先资格

)有 Reward Model 训练、强化学习(PPO/DPO/GRPO)应用于语言模型的研究或实践经验

)在 ICML/ICLR/ACL/EMNLP 等顶级会议上发表过相关论文
)深度体验过多款 AI 游戏、AI 对话、角色扮演产品,对模型人文能力有直觉判断
)有大规模模型训练实践(参与过十亿参数以上模型的训练或微调)
)了解游戏叙事、角色设定相关知识,或有游戏/互动内容创作相关背景
)有数据标注设计或高质量训练数据构建经验

AI 洞察

优缺点分析

优点

  • 站在AI大模型应用的最前沿,接触LLM对齐和强化学习的核心方法,技能积累价值高
  • 团队氛围可能偏研究导向,鼓励探索和发表论文,适合有学术追求的同学
  • 游戏行业对模型人文表现要求高,评估标准较主观,需要持续迭代优化
  • 适合对LLM对齐和强化学习有强烈兴趣,具备扎实功底和自驱力,愿在游戏AI领域深耕的硕士/博士在校生

缺点 / 挑战

  • 公司平台强大,米哈游是游戏行业巨头,项目与游戏内容深度结合,兼具技术挑战与创意乐趣
  • 技术难度较高,需要同时掌握LLM、RL、数据工程等多个领域,学习曲线陡峭
  • 实习期间需要快速产出,可能面临较大实验压力和结果不确定性

角色解读

  • 从实习算法研究员起步,积累大模型对齐和强化学习实战经验,未来可晋升为正式算法工程师或高级研究员
  • 向AI+游戏领域专家方向发展,融合游戏叙事与AI技术,成为稀缺的跨领域人才
  • 有机会参与顶级会议论文发表,在学术界或工业界建立影响力
  • 研发LLM后训练算法,包括SFT、RLHF、DPO等对齐方法,提升模型在游戏剧情生成和角色对话中的表现
  • 设计和训练Reward Model,构建针对对话质量、情感表达等维度的奖励信号,支撑强化学习流程
  • 参与数据构建与质量评估,包括SFT数据设计、偏好数据采集与清洗,探索数据合成和增强策略
  • 跟踪前沿技术如RLAIF、On-Policy Distillation,并进行实验验证和落地尝试
  • 扎实的机器学习与深度学习基础,熟悉Transformer、MoE架构,熟练使用PyTorch及主流训练框架
  • 深入理解强化学习算法如PPO、DPO、GRPO,并有在语言模型对齐上的实践经验
  • 具备较强的代码工程和实验设计能力,能快速实现算法想法并进行分布式训练
  • 对数据质量敏感,了解不同数据类型对模型效果的影响机制

申请策略

  • 在投递时附上个人GitHub链接或技术博客,展示项目代码和思考过程
  • 关注米哈游的技术动态,特别是AI Lab发布的内容,在面试中体现对公司的了解
  • 突出LLM微调或RLHF项目经历,详细描述技术方案、实验结果和个人贡献
  • 列出发表的顶会论文或预印本,尤其是与大模型对齐、强化学习相关的
  • 展示对游戏AI或角色扮演产品的深度体验和理解,体现对业务场景的洞察
  • 提前熟悉PPO/DPO/GRPO等算法的代码实现,可以复现一篇经典论文的开源代码
  • 补充分布式训练知识,如DeepSpeed、Megatron-LM的使用和调优
  • 了解游戏叙事和角色设定基础知识,以便更好地理解业务需求

面试指南

  • 问题拆解:先讲原理,再结合实际经验,最后总结思考
  • 对比分析:比较不同方法的异同,体现深度理解
  • 案例导向:用具体项目或实验数据支撑回答,展示工程能力
  • 请详细解释RLHF的训练流程,包括Reward Model的训练和PPO的优化目标
  • 为什么DPO比RLHF更简单?它们各自的优缺点是什么?
  • 在训练大模型时,如何解决训练不稳定(如奖励崩溃、梯度爆炸)的问题?
  • 你如何设计一个奖励信号来评估角色对话的一致性?
  • 你过去参与的LLM项目中遇到了什么挑战?如何解决的?

匹配度报告

62
综合匹配度

顶尖AI游戏公司实习,前沿LLM后训练技术栈,成长空间极大但WLB未知。

适合人群
适合极度追求技术成长、愿意投入高强度工作换取前沿经验的求职者,对WLB要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利50
成长发展95
工作生活40
使命价值65

薪资福利匹配

50较低

薪资未在JD中披露,但作为大厂实习生通常具有行业竞争力;福利信息缺失,补偿性动机满足程度中等偏低。

薪资信号未披露(AI估算:8K-15K/月)

成长发展匹配

95较高

该职位涉及LLM最前沿技术(后训练、RLHF等),技能成长空间极大,但JD未提及晋升或培训。

技术前沿前沿/新兴技术
技术栈LLM、Post-training、SFT、RLHF、DPO、PPO、GRPO、Reward Model、PyTorch、DeepSpeed、Megatron-LM
业务类型profit_center

工作生活匹配

40较低

工作地点在上海,需现场办公;JD未提及任何WLB信息,可能面临游戏行业典型的工作强度。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

65中等

AI+游戏属于高速增长赛道,创新性强,但社会价值偏中性,使命导向不明显。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • AI 模型评测专家 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 算法研究员

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • 拔尖计划-人工智能专家

    中国移动 · 上海市
    AI 估算 · 50k-80k
  • Intern_Inno Mgmt/创新管理实习生(AI 产品)

    奔驰 · 北京市
    AI 估算 · 3k-5k
  • 伐谋产品组_R&D Pioneer 计划算法实习生(J100093)

    百度 · 北京市
    AI 估算 · 4k-8k
  • 计算机视觉及多模态算法实习生(J100103)

    百度 · 成都市
    AI 估算 · 4k-6k

米哈游 的其他在招职位

  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 战略投资研究员(科技方向)

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • Agent 算法研究员

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • AI 模型评测专家 - 星布谷地

    米哈游 · 上海市
    AI 估算 · 30k-50k
  • 三视图原画(第三方编制)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-25k

相似职位推荐

  • 算法研究员

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • 拔尖计划-人工智能专家

    中国移动 · 上海市
    AI 估算 · 50k-80k
  • Intern_Inno Mgmt/创新管理实习生(AI 产品)

    奔驰 · 北京市
    AI 估算 · 3k-5k
  • 伐谋产品组_R&D Pioneer 计划算法实习生(J100093)

    百度 · 北京市
    AI 估算 · 4k-8k
  • 计算机视觉及多模态算法实习生(J100103)

    百度 · 成都市
    AI 估算 · 4k-6k