米哈游的LLM Post-train 算法研究员薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

LLM Post-train 算法研究员的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

米哈游的LLM Post-train 算法研究员有什么任职要求？

该职位要求硕士学历及无经验要求工作经验。

米哈游

LLM Post-train 算法研究员

立即应聘

LLM Post-train 算法研究员

发布于大约 2 个月前

实习/见习

上海市

无经验要求

实习生

仅现场办公

硕士

研究与开发 (研发)

PyTorch

LLM

SFT

Megatron-LM

DeepSpeed

PPO

RLHF

DPO

MoE

AI 估算 · 8k–15k

一线大厂算法实习生薪资较高，结合技术难度和顶尖公司背景，月薪约8-15K

职位详情

关于这个职位

该职位聚焦于大语言模型的后训练算法研发，包括SFT、RLHF、DPO等对齐方法，以及强化学习训练优化

你将参与游戏内容生成、角色扮演等场景的模型能力提升，涉及数据工程与前沿技术探索

适合对LLM对齐和RL有浓厚兴趣的在校硕士/博士

最低要求

）2027/2028 届在校硕士及以上学历，计算机科学、人工智能、机器学习、NLP 或相关专业

）熟悉 Transformer / MoE 架构原理，熟练使用 PyTorch 及主流大模型训练/推理框架（如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等）

）具备扎实的强化学习基础，理解 PPO/DPO/GRPO 等算法原理，有将 RL 方法应用于语言模型对齐的实践经验

）有 LLM 微调、对话系统训练或文本生成相关的研究或项目经验，了解分布式训练基础知识

）具备较强的代码工程能力和实验设计能力，能够快速实现和验证算法思路

）对数据质量敏感，了解 SFT 数据、偏好数据和奖励信号对模型效果的影响机制

）具备良好的学习能力和逻辑思维，对 AI 前沿技术有持续热情

工作职责

）后训练算法研发：参与游戏内容、角色扮演等场景下大模型的后训练（Post-training）算法研发工作，涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化，提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力

）奖励模型训练：参与 Reward Model 的设计与训练，探索面向对话质量、情感表达、角色一致性、安全性等维度的奖励信号构建，支撑强化学习训练流程

）强化学习训练优化：参与基于 PPO/GRPO 等算法的大模型对齐训练，探索训练稳定性、采样效率和效果提升方法，支持模型在复杂多轮对话和开放域生成场景中的优化

）数据工程：参与后训练阶段的数据构建工作，包括 SFT 数据设计、偏好数据采集与标注、数据清洗与质量评估，探索数据合成、数据增强与数据混合策略

）多类型模型训练：参与辅助模型（如分类器、决策模型等）的训练与调优，支撑模型产品体系建设

）实验与迭代：完成训练实验的设计与执行，分析实验结果，定位模型表现问题，提出改进方案并在时延要求内推动落地

）前沿技术探索：跟踪 Post-training 领域最新研究进展（如 RLAIF、On-Policy Distillation、推理链压缩等），结合游戏对话业务需求进行技术预研与创新落地

优先资格

）有 Reward Model 训练、强化学习（PPO/DPO/GRPO）应用于语言模型的研究或实践经验

）在 ICML/ICLR/ACL/EMNLP 等顶级会议上发表过相关论文

）深度体验过多款 AI 游戏、AI 对话、角色扮演产品，对模型人文能力有直觉判断

）有大规模模型训练实践（参与过十亿参数以上模型的训练或微调）

）了解游戏叙事、角色设定相关知识，或有游戏/互动内容创作相关背景

）有数据标注设计或高质量训练数据构建经验

AI 洞察

优缺点分析

优点

站在AI大模型应用的最前沿，接触LLM对齐和强化学习的核心方法，技能积累价值高
团队氛围可能偏研究导向，鼓励探索和发表论文，适合有学术追求的同学
游戏行业对模型人文表现要求高，评估标准较主观，需要持续迭代优化
适合对LLM对齐和强化学习有强烈兴趣，具备扎实功底和自驱力，愿在游戏AI领域深耕的硕士/博士在校生

缺点 / 挑战

公司平台强大，米哈游是游戏行业巨头，项目与游戏内容深度结合，兼具技术挑战与创意乐趣
技术难度较高，需要同时掌握LLM、RL、数据工程等多个领域，学习曲线陡峭
实习期间需要快速产出，可能面临较大实验压力和结果不确定性

角色解读

从实习算法研究员起步，积累大模型对齐和强化学习实战经验，未来可晋升为正式算法工程师或高级研究员
向AI+游戏领域专家方向发展，融合游戏叙事与AI技术，成为稀缺的跨领域人才
有机会参与顶级会议论文发表，在学术界或工业界建立影响力
研发LLM后训练算法，包括SFT、RLHF、DPO等对齐方法，提升模型在游戏剧情生成和角色对话中的表现
设计和训练Reward Model，构建针对对话质量、情感表达等维度的奖励信号，支撑强化学习流程
参与数据构建与质量评估，包括SFT数据设计、偏好数据采集与清洗，探索数据合成和增强策略
跟踪前沿技术如RLAIF、On-Policy Distillation，并进行实验验证和落地尝试
扎实的机器学习与深度学习基础，熟悉Transformer、MoE架构，熟练使用PyTorch及主流训练框架
深入理解强化学习算法如PPO、DPO、GRPO，并有在语言模型对齐上的实践经验
具备较强的代码工程和实验设计能力，能快速实现算法想法并进行分布式训练
对数据质量敏感，了解不同数据类型对模型效果的影响机制

申请策略

在投递时附上个人GitHub链接或技术博客，展示项目代码和思考过程
关注米哈游的技术动态，特别是AI Lab发布的内容，在面试中体现对公司的了解
突出LLM微调或RLHF项目经历，详细描述技术方案、实验结果和个人贡献
列出发表的顶会论文或预印本，尤其是与大模型对齐、强化学习相关的
展示对游戏AI或角色扮演产品的深度体验和理解，体现对业务场景的洞察
提前熟悉PPO/DPO/GRPO等算法的代码实现，可以复现一篇经典论文的开源代码
补充分布式训练知识，如DeepSpeed、Megatron-LM的使用和调优
了解游戏叙事和角色设定基础知识，以便更好地理解业务需求

面试指南

问题拆解：先讲原理，再结合实际经验，最后总结思考
对比分析：比较不同方法的异同，体现深度理解
案例导向：用具体项目或实验数据支撑回答，展示工程能力
请详细解释RLHF的训练流程，包括Reward Model的训练和PPO的优化目标
为什么DPO比RLHF更简单？它们各自的优缺点是什么？
在训练大模型时，如何解决训练不稳定（如奖励崩溃、梯度爆炸）的问题？
你如何设计一个奖励信号来评估角色对话的一致性？
你过去参与的LLM项目中遇到了什么挑战？如何解决的？

职位点评

综合评分

顶尖AI游戏公司实习，前沿LLM后训练技术栈，成长空间极大但WLB未知。

更适合这类人

适合极度追求技术成长、愿意投入高强度工作换取前沿经验的求职者，对WLB要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利50

成长发展95

工作生活40

使命价值65

薪资福利

50较低

薪资未在JD中披露，但作为大厂实习生通常具有行业竞争力；福利信息缺失，补偿性动机满足程度中等偏低。

薪资信号未披露（AI估算：8K-15K/月）

成长发展

95较高

该职位涉及LLM最前沿技术（后训练、RLHF等），技能成长空间极大，但JD未提及晋升或培训。

技术前沿前沿/新兴技术

技术栈LLM、Post-training、SFT、RLHF、DPO、PPO、GRPO、Reward Model、PyTorch、DeepSpeed、Megatron-LM

业务类型profit_center

工作生活

40较低

工作地点在上海，需现场办公；JD未提及任何WLB信息，可能面临游戏行业典型的工作强度。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

65中等

AI+游戏属于高速增长赛道，创新性强，但社会价值偏中性，使命导向不明显。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

LLM Post-train 算法研究员

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

StarMaker-推荐算法实习生

2050-Agent算法研究员

2050-算法研究员

StarMaker-语音算法实习生

Lamination & Gluing Engineer - Process

米哈游的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

StarMaker-推荐算法实习生

2050-Agent算法研究员

2050-算法研究员

StarMaker-语音算法实习生

Lamination & Gluing Engineer - Process

LLM Post-train 算法研究员

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

StarMaker-推荐算法实习生

2050-Agent算法研究员

2050-算法研究员

StarMaker-语音算法实习生

Lamination & Gluing Engineer - Process

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

StarMaker-推荐算法实习生

2050-Agent算法研究员

2050-算法研究员

StarMaker-语音算法实习生

Lamination & Gluing Engineer - Process

米哈游的其他在招职位

米哈游的其他在招职位