米哈游的LLM Post-train 算法工程师 - Varsapura薪资是多少？

该职位薪资范围为 35k–55k（人民币/月）。

LLM Post-train 算法工程师 - Varsapura的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

米哈游的LLM Post-train 算法工程师 - Varsapura有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

米哈游

LLM Post-train 算法工程师 - Varsapura

立即应聘

LLM Post-train 算法工程师 - Varsapura

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

硕士

软件工程

PyTorch

LLM

SFT

大模型

Megatron-LM

DeepSpeed

vLLM

PPO

RLHF

AI 估算 · 35k–55k

LLM前沿方向，门槛高，公司平台大，薪资竞争力强

职位详情

关于这个职位

该职位负责大模型后训练算法研发，包括SFT、RLHF、DPO等方法，优化游戏场景中的剧情生成与角色对话能力

需要设计奖励模型、强化学习训练及高质量数据工程，跟踪前沿技术

适合有NLP大模型经验、熟悉Transformer和PyTorch的算法工程师

最低要求

）硕士及以上学历，计算机科学、人工智能、机器学习、NLP 或相关专业

）3年以上大模型训练或 NLP 算法相关经验，有 SFT、RLHF/DPO、Reward Model 训练的实际项目经验

）熟悉 Transformer / MoE 架构原理，熟练使用 PyTorch 及主流大模型训练/推理框架（如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等）

）具备优秀的工程实现能力，能够独立设计和搭建训练流水线，快速复现和改进前沿算法

）对数据质量敏感，具备高质量 SFT/偏好数据构建经验，了解数据对模型效果的影响机制

）具备扎实的强化学习基础，理解 PPO/DPO/GRPO 等算法原理，有将 RL 方法应用于语言模型对齐的实践经验

）具备良好的分析和调试能力，能定位训练过程中的稳定性、收敛性和效果问题

工作职责

）后训练算法研发：参与游戏内容、角色扮演等场景下大模型的后训练（Post-training）算法研发工作，涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化，提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力

）奖励模型与对齐信号：设计和训练 Reward Model，探索多维度奖励信号的构建（如指令遵循、对话连贯性、创意性、安全性等），减少 Reward Hacking 和偏差问题，为强化学习提供高质量训练信号

）强化学习训练与优化：基于 PPO/GRPO 等强化学习算法完成模型对齐训练，探索可规模化（Scalable）的 Verifier 信号与 RL 策略，提升训练稳定性与效率，推动模型在复杂多轮对话和开放域场景中的推理与生成能力

）高质量数据工程：负责后训练阶段的数据治理，包括 SFT 数据构建、偏好数据采集与清洗、合成数据生成、数据混合策略设计，结合业务场景解决数据稀缺性问题

）多类型模型训练：除对话模型外，参与其他辅助模型（如分类器、决策模型等）的训练与调优，支撑整体模型产品体系建设

）前沿技术探索：跟踪 Post-training 领域最新研究进展（如 RLAIF、On-Policy Distillation、推理链压缩等），结合游戏对话业务需求进行技术预研与创新落地

优先资格

）有对话系统、角色扮演、聊天产品方向的模型训练经验，理解开放域对话场景下模型对齐的特殊挑战（如角色一致性维持、多轮上下文建模、情感与事实平衡等）

）在 ICML/ICLR/ACL/EMNLP 等顶级会议上发表过 Post-training、对齐、奖励建模相关论文

）有大规模模型训练经历（如百亿参数以上），了解分布式训练框架及对应的性能调优

）有游戏行业相关经验，理解游戏角色设定、叙事逻辑、世界观一致性对模型训练的特殊需求

）熟悉大规模语料处理、数据合成与数据质量评估方法

AI 洞察

优缺点分析

优点

技术栈前沿，涉及LLM、强化学习、奖励模型等热门方向，能积累稀缺经验
薪资竞争力强，福利待遇好，公司自负盈亏，发展稳定
技术要求高，需要同时掌握NLP、强化学习和分布式训练，学习曲线陡峭
游戏场景对模型角色一致性和对话连贯性要求苛刻，调试优化耗时
适合对LLM对齐和强化学习有浓厚兴趣、具备较强工程能力和钻研精神的算法工程师，尤其有NLP大模型实战经验者

缺点 / 挑战

米哈游作为头部游戏公司，平台大，项目场景真实复杂，技术挑战高
可能面临较大工作强度和压力，尤其是在模型训练和迭代阶段

角色解读

在LLM后训练方向深入成为专家，参与前沿算法研究，推动技术落地于游戏业务
可向技术管理岗位发展，带领团队负责模型训练与优化，或转向更宽泛的AI算法架构
负责大模型后训练算法的研发，包括SFT、RLHF、DPO等对齐方法的实现与优化，提升模型在游戏剧情生成和角色对话中的表现
设计和训练奖励模型，探索多维度奖励信号，减少奖励欺骗问题，为强化学习提供高质量信号
基于PPO/GRPO等算法进行模型对齐训练，提升训练稳定性和效率，并负责高质量SFT数据构建与数据治理
精通Transformer/MoE架构，熟练使用PyTorch及DeepSpeed、Megatron-LM等大模型训练框架
具备SFT、RLHF/DPO、Reward Model的实际项目经验，理解PPO/DPO/GRPO等强化学习算法
优秀的工程实现能力，能独立搭建训练流水线，对数据质量敏感，有偏好数据构建经验

申请策略

深入了解米哈游的游戏产品（如原神、崩坏系列），在面试中结合业务场景展示思考
准备一个完整的后训练项目案例，从数据构建到模型评估，体现工程思维
突出SFT、RLHF/DPO、Reward Model的实际项目经验，包括训练流程、数据构建和效果提升
强调使用PyTorch和DeepSpeed等框架进行大规模训练的经历，以及分布式调优经验
列出发表的顶会论文或相关技术博客，尤其与Post-training或对齐相关的
补充强化学习理论，重点理解PPO、DPO、GRPO的数学原理和实现细节
熟悉游戏对话或角色扮演场景的模型训练特点，如角色一致性、多轮上下文建模

面试指南

项目类问题采用STAR原则：背景、任务、行动、结果，突出技术难点和量化成果
算法对比类问题：先解释基本原理，再分析各自优缺点和适用场景，结合实践经验
开放性设计问题：展示系统性思考，先界定问题，再提出方案，最后讨论权衡
请详细描述你参与的一个SFT/RLHF项目，包括数据构建、训练过程和遇到的挑战
PPO和DPO的主要区别是什么？在实际训练中如何选择？
如何设计多维度奖励信号以减少Reward Hacking？
在大规模模型训练中，你如何保证训练稳定性和收敛性？
对于游戏角色对话场景，你认为模型对齐最大的挑战是什么？

职位点评

综合评分

技术前沿、薪资优厚、挑战大、WLB一般

更适合这类人

适合追求技术成长、热衷前沿AI算法、不介意工作强度和固定办公地点的求职者

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活45

使命价值70

薪资福利

75中等

薪资未在JD中明示，但米哈游作为超大型游戏公司，技术岗位薪资通常具有市场竞争力，且公司自负盈亏，福利稳定。

薪资信号未披露（AI估算：35K-55K/月）

成长发展

90较高

该职位处于LLM后训练前沿技术领域，涉及SFT、RLHF、强化学习等，技术挑战高，成长空间大，公司业务场景丰富，但JD中未明确提及晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、LLM、SFT、RLHF、DPO、PPO、GRPO、Reward Model、Transformer、MoE、PyTorch、DeepSpeed、Megatron-LM、vLLM

业务类型profit_center

工作生活

45较低

要求仅现场办公，未提及弹性工作或WLB，游戏行业通常加班较多，工作地点在上海但未明确区域，通勤可能较长。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

游戏行业属于高速增长赛道，但社会影响力中性。职位涉及创新技术应用，能推动游戏AI发展，具有一定价值感，但未明确使命导向。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

米哈游

LLM Post-train 算法工程师 - Varsapura

立即应聘

LLM Post-train 算法工程师 - Varsapura

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

硕士

软件工程

PyTorch

LLM

SFT

大模型

Megatron-LM

DeepSpeed

vLLM

PPO

RLHF

AI 估算 · 35k–55k

LLM前沿方向，门槛高，公司平台大，薪资竞争力强

职位详情

关于这个职位

该职位负责大模型后训练算法研发，包括SFT、RLHF、DPO等方法，优化游戏场景中的剧情生成与角色对话能力

需要设计奖励模型、强化学习训练及高质量数据工程，跟踪前沿技术

适合有NLP大模型经验、熟悉Transformer和PyTorch的算法工程师

最低要求

）硕士及以上学历，计算机科学、人工智能、机器学习、NLP 或相关专业

）3年以上大模型训练或 NLP 算法相关经验，有 SFT、RLHF/DPO、Reward Model 训练的实际项目经验

）熟悉 Transformer / MoE 架构原理，熟练使用 PyTorch 及主流大模型训练/推理框架（如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等）

）具备优秀的工程实现能力，能够独立设计和搭建训练流水线，快速复现和改进前沿算法

）对数据质量敏感，具备高质量 SFT/偏好数据构建经验，了解数据对模型效果的影响机制

）具备扎实的强化学习基础，理解 PPO/DPO/GRPO 等算法原理，有将 RL 方法应用于语言模型对齐的实践经验

）具备良好的分析和调试能力，能定位训练过程中的稳定性、收敛性和效果问题

工作职责

）多类型模型训练：除对话模型外，参与其他辅助模型（如分类器、决策模型等）的训练与调优，支撑整体模型产品体系建设

）前沿技术探索：跟踪 Post-training 领域最新研究进展（如 RLAIF、On-Policy Distillation、推理链压缩等），结合游戏对话业务需求进行技术预研与创新落地

优先资格

）在 ICML/ICLR/ACL/EMNLP 等顶级会议上发表过 Post-training、对齐、奖励建模相关论文

）有大规模模型训练经历（如百亿参数以上），了解分布式训练框架及对应的性能调优

）有游戏行业相关经验，理解游戏角色设定、叙事逻辑、世界观一致性对模型训练的特殊需求

）熟悉大规模语料处理、数据合成与数据质量评估方法

AI 洞察

优缺点分析

优点

技术栈前沿，涉及LLM、强化学习、奖励模型等热门方向，能积累稀缺经验
薪资竞争力强，福利待遇好，公司自负盈亏，发展稳定
技术要求高，需要同时掌握NLP、强化学习和分布式训练，学习曲线陡峭
游戏场景对模型角色一致性和对话连贯性要求苛刻，调试优化耗时
适合对LLM对齐和强化学习有浓厚兴趣、具备较强工程能力和钻研精神的算法工程师，尤其有NLP大模型实战经验者

缺点 / 挑战

米哈游作为头部游戏公司，平台大，项目场景真实复杂，技术挑战高
可能面临较大工作强度和压力，尤其是在模型训练和迭代阶段

角色解读

在LLM后训练方向深入成为专家，参与前沿算法研究，推动技术落地于游戏业务
可向技术管理岗位发展，带领团队负责模型训练与优化，或转向更宽泛的AI算法架构
负责大模型后训练算法的研发，包括SFT、RLHF、DPO等对齐方法的实现与优化，提升模型在游戏剧情生成和角色对话中的表现
设计和训练奖励模型，探索多维度奖励信号，减少奖励欺骗问题，为强化学习提供高质量信号
基于PPO/GRPO等算法进行模型对齐训练，提升训练稳定性和效率，并负责高质量SFT数据构建与数据治理
精通Transformer/MoE架构，熟练使用PyTorch及DeepSpeed、Megatron-LM等大模型训练框架
具备SFT、RLHF/DPO、Reward Model的实际项目经验，理解PPO/DPO/GRPO等强化学习算法
优秀的工程实现能力，能独立搭建训练流水线，对数据质量敏感，有偏好数据构建经验

申请策略

深入了解米哈游的游戏产品（如原神、崩坏系列），在面试中结合业务场景展示思考
准备一个完整的后训练项目案例，从数据构建到模型评估，体现工程思维
突出SFT、RLHF/DPO、Reward Model的实际项目经验，包括训练流程、数据构建和效果提升
强调使用PyTorch和DeepSpeed等框架进行大规模训练的经历，以及分布式调优经验
列出发表的顶会论文或相关技术博客，尤其与Post-training或对齐相关的
补充强化学习理论，重点理解PPO、DPO、GRPO的数学原理和实现细节
熟悉游戏对话或角色扮演场景的模型训练特点，如角色一致性、多轮上下文建模

面试指南

项目类问题采用STAR原则：背景、任务、行动、结果，突出技术难点和量化成果
算法对比类问题：先解释基本原理，再分析各自优缺点和适用场景，结合实践经验
开放性设计问题：展示系统性思考，先界定问题，再提出方案，最后讨论权衡
请详细描述你参与的一个SFT/RLHF项目，包括数据构建、训练过程和遇到的挑战
PPO和DPO的主要区别是什么？在实际训练中如何选择？
如何设计多维度奖励信号以减少Reward Hacking？
在大规模模型训练中，你如何保证训练稳定性和收敛性？
对于游戏角色对话场景，你认为模型对齐最大的挑战是什么？

职位点评

综合评分

技术前沿、薪资优厚、挑战大、WLB一般

更适合这类人

适合追求技术成长、热衷前沿AI算法、不介意工作强度和固定办公地点的求职者

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活45

使命价值70

薪资福利

75中等

薪资未在JD中明示，但米哈游作为超大型游戏公司，技术岗位薪资通常具有市场竞争力，且公司自负盈亏，福利稳定。

薪资信号未披露（AI估算：35K-55K/月）

成长发展

90较高

该职位处于LLM后训练前沿技术领域，涉及SFT、RLHF、强化学习等，技术挑战高，成长空间大，公司业务场景丰富，但JD中未明确提及晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、LLM、SFT、RLHF、DPO、PPO、GRPO、Reward Model、Transformer、MoE、PyTorch、DeepSpeed、Megatron-LM、vLLM

业务类型profit_center

工作生活

45较低

要求仅现场办公，未提及弹性工作或WLB，游戏行业通常加班较多，工作地点在上海但未明确区域，通勤可能较长。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

游戏行业属于高速增长赛道，但社会影响力中性。职位涉及创新技术应用，能推动游戏AI发展，具有一定价值感，但未明确使命导向。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

LLM Post-train 算法工程师 - Varsapura

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

LLM Post-train 算法工程师 - Varsapura

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

2050-大模型框架开发工程师

短剧平台-H5开发工程师（海外短剧）-校招

多模态与空间智能-3D/4D生成算法工程师

短剧平台-Android开发工程师-校招

Consultant Specialist

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

2050-大模型框架开发工程师

短剧平台-H5开发工程师（海外短剧）-校招

多模态与空间智能-3D/4D生成算法工程师

短剧平台-Android开发工程师-校招

Consultant Specialist

米哈游的其他在招职位

米哈游的其他在招职位