米哈游的LLM Post-train 算法工程师 - 星布谷地薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

LLM Post-train 算法工程师 - 星布谷地的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

米哈游的LLM Post-train 算法工程师 - 星布谷地有什么任职要求？

该职位要求硕士学历及高级经验工作经验。

米哈游

LLM Post-train 算法工程师 - 星布谷地

立即应聘

LLM Post-train 算法工程师 - 星布谷地

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

硕士

软件工程

PyTorch

LLM

SFT

DeepSpeed

PPO

RLHF

DPO

Grpo

Post-Training

AI 估算 · 35k–60k

LLM算法人才稀缺，米哈游游戏大厂薪资竞争力强，上海高级算法岗月薪35k-60k，16薪合理

职位详情

关于这个职位

该职位加入米哈游，负责LLM后训练算法研发，聚焦游戏内容与角色扮演场景

你将参与SFT、RLHF、DPO等对齐方法的实现和优化，设计奖励模型，基于强化学习提升模型在对话连贯性、角色一致性、情感表达等方面的能力

需要扎实的NLP和RL基础，有相关项目经验者优先

最低要求

）硕士及以上学历，计算机科学、人工智能、机器学习、NLP 或相关专业 2）3年以上大模型训练或 NLP 算法相关经验，有 SFT、RLHF/DPO、Reward Model 训练的实际项目经验 3）熟悉 Transformer / MoE 架构原理，熟练使用 PyTorch 及主流大模型训练/推理框架（如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等） 4）具备优秀的工程实现能力，能够独立设计和搭建训练流水线，快速复现和改进前沿算法 5）对数据质量敏感，具备高质量 SFT/偏好数据构建经验，了解数据对模型效果的影响机制 6）具备扎实的强化学习基础，理解 PPO/DPO/GRPO 等算法原理，有将 RL 方法应用于语言模型对齐的实践经验 7）具备良好的分析和调试能力，能定位训练过程中的稳定性、收敛性和效果问题

工作职责

）后训练算法研发：参与游戏内容、角色扮演等场景下大模型的后训练（Post-training）算法研发工作，涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化，提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力 2）奖励模型与对齐信号：设计和训练 Reward Model，探索多维度奖励信号的构建（如指令遵循、对话连贯性、创意性、安全性等），减少 Reward Hacking 和偏差问题，为强化学习提供高质量训练信号 3）强化学习训练与优化：基于 PPO/GRPO 等强化学习算法完成模型对齐训练，探索可规模化（Scalable）的 Verifier 信号与 RL 策略，提升训练稳定性与效率，推动模型在复杂多轮对话和开放域场景中的推理与生成能力 4）高质量数据工程：负责后训练阶段的数据治理，包括 SFT 数据构建、偏好数据采集与清洗、合成数据生成、数据混合策略设计，结合业务场景解决数据稀缺性问题 5）多类型模型训练：除对话模型外，参与其他辅助模型（如分类器、决策模型等）的训练与调优，支撑整体模型产品体系建设 6）前沿技术探索：跟踪 Post-training 领域最新研究进展（如 RLAIF、On-Policy Distillation、推理链压缩等），结合游戏对话业务需求进行技术预研与创新落地

优先资格

）有对话系统、角色扮演、聊天产品方向的模型训练经验，理解开放域对话场景下模型对齐的特殊挑战（如角色一致性维持、多轮上下文建模、情感与事实平衡等） 2）在 ICML/ICLR/ACL/EMNLP 等顶级会议上发表过 Post-training、对齐、奖励建模相关论文 3）有大规模模型训练经历（如百亿参数以上），了解分布式训练框架及对应的性能调优 4）有游戏行业相关经验，理解游戏角色设定、叙事逻辑、世界观一致性对模型训练的特殊需求 5）熟悉大规模语料处理、数据合成与数据质量评估方法

AI 洞察

优缺点分析

优点

米哈游是游戏行业头部公司，技术资源丰富，项目落地场景真实有趣
LLM后训练是当前AI前沿方向，职业发展前景广阔，技能积累价值高
团队技术氛围浓厚，有机会与顶级学者和工程师合作，参与前沿研究
游戏场景对模型效果要求苛刻，需处理角色一致性、多轮对话等复杂问题
行业竞争激烈，需要持续跟踪最新论文并快速落地，工作节奏可能较快

缺点 / 挑战

职位要求较高，需要同时具备算法深度和工程能力，学习曲线陡峭
适合有3年以上大模型训练经验、热爱技术挑战、希望在游戏AI方向深耕的算法工程师

角色解读

技术纵深发展：成为大模型后训练与对齐领域的专家，主导核心算法研发
横向拓展：向多模态、推理增强、Agent等方向延伸，参与前沿探索
管理路线：积累经验后晋升为技术负责人或团队Leader，带领算法团队
负责大模型后训练的对齐算法研发，包括SFT、RLHF、DPO等方法的实现和调优
设计和训练Reward Model，构建多维度奖励信号，减少Reward Hacking问题
基于PPO/GRPO等强化学习算法完成模型对齐训练，提升模型对话连贯性和角色一致性
参与高质量数据工程，包括SFT数据构建、偏好数据清洗和合成数据生成
扎实的机器学习/NLP基础，熟悉Transformer/MoE架构
精通PyTorch及主流训练框架（DeepSpeed、Megatron-LM等）
有强化学习（PPO、DPO、GRPO）应用于语言模型对齐的实际经验
对数据质量敏感，具备构建高质量SFT和偏好数据的能力

申请策略

在简历或作品集中展示开源贡献或技术博客，体现技术热情
面试前了解米哈游旗下产品的AI应用（如《星布谷地》尚在开发中），思考可能的优化方向
突出SFT、RLHF/DPO、Reward Model的实际项目经验和成果
展示在强化学习算法（PPO、GRPO等）应用于语言模型的实践
强调数据工程能力，如构建高质量SFT数据、偏好数据清洗等
如有对话系统或角色扮演相关经验，务必详细描述
补强分布式训练框架的使用（DeepSpeed、Megatron-LM等）
熟悉前沿对齐方法（RLAIF、On-Policy Distillation等），阅读最新论文

面试指南

采用STAR法则：描述场景（S）、任务（T）、行动（A）、结果（R），重点突出技术难点和解决方案
对于算法比较问题，从数学原理、实现复杂度、效果差异等维度对比，并结合自己的实践经验
回答挑战性问题时，先承认难度，再展示自己的思考路径和可能的解决方案，体现分析能力
请详细描述你过去在SFT或RLHF项目中的实践经验，遇到了哪些问题？如何解决的？
解释DPO和PPO的区别，以及各自适用的场景
如何设计Reward Model以减少Reward Hacking？请举例说明
在训练大模型时，如何保证训练稳定性？你如何调试训练过程中出现的loss震荡？
对于游戏角色扮演场景，你认为模型对齐面临哪些特殊挑战？如何解决？

职位点评

综合评分

游戏大厂、LLM后训练前沿技术、薪资高、成长快，但需现场办公且工作节奏可能较快。

更适合这类人

该职位最适合追求技术前沿、渴望在LLM领域深耕的求职者，尤其看重成长性和薪资回报。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活60

使命价值75

薪资福利

85较高

米哈游作为知名游戏公司，薪资待遇在行业中处于较高水平，且福利完善。JD中虽未明示具体薪资，但结合公司规模和职位稀缺度，预估薪资较高。

薪资信号未披露（AI估算：35K-60K/月）

成长发展

95较高

该职位聚焦LLM后训练前沿技术，涉及SFT、RLHF、PPO等最新算法，能极大提升算法和工程能力。公司有技术氛围，鼓励创新，成长空间大。

技术前沿前沿/新兴技术

技术栈LLM、Post-training、SFT、RLHF、DPO、PPO、GRPO、Reward Model、DeepSpeed、Megatron-LM

业务类型profit_center

工作生活

60中等

工作地点在上海，需要现场办公。互联网/游戏行业通常工作节奏较快，但米哈游作为成熟大厂有相对规范的工时管理。JD中未提及WLB相关信息。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

游戏行业为用户带来快乐，但社会价值相对中性。作为AI算法工程师，通过技术创新提升游戏体验，有行业影响力。JD中未明确提及使命感。

行业发展稳定成熟行业

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

米哈游

LLM Post-train 算法工程师 - 星布谷地

立即应聘

LLM Post-train 算法工程师 - 星布谷地

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

硕士

软件工程

PyTorch

LLM

SFT

DeepSpeed

PPO

RLHF

DPO

Grpo

Post-Training

AI 估算 · 35k–60k

LLM算法人才稀缺，米哈游游戏大厂薪资竞争力强，上海高级算法岗月薪35k-60k，16薪合理

职位详情

关于这个职位

该职位加入米哈游，负责LLM后训练算法研发，聚焦游戏内容与角色扮演场景

你将参与SFT、RLHF、DPO等对齐方法的实现和优化，设计奖励模型，基于强化学习提升模型在对话连贯性、角色一致性、情感表达等方面的能力

需要扎实的NLP和RL基础，有相关项目经验者优先

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

优点

米哈游是游戏行业头部公司，技术资源丰富，项目落地场景真实有趣
LLM后训练是当前AI前沿方向，职业发展前景广阔，技能积累价值高
团队技术氛围浓厚，有机会与顶级学者和工程师合作，参与前沿研究
游戏场景对模型效果要求苛刻，需处理角色一致性、多轮对话等复杂问题
行业竞争激烈，需要持续跟踪最新论文并快速落地，工作节奏可能较快

缺点 / 挑战

职位要求较高，需要同时具备算法深度和工程能力，学习曲线陡峭
适合有3年以上大模型训练经验、热爱技术挑战、希望在游戏AI方向深耕的算法工程师

角色解读

技术纵深发展：成为大模型后训练与对齐领域的专家，主导核心算法研发
横向拓展：向多模态、推理增强、Agent等方向延伸，参与前沿探索
管理路线：积累经验后晋升为技术负责人或团队Leader，带领算法团队
负责大模型后训练的对齐算法研发，包括SFT、RLHF、DPO等方法的实现和调优
设计和训练Reward Model，构建多维度奖励信号，减少Reward Hacking问题
基于PPO/GRPO等强化学习算法完成模型对齐训练，提升模型对话连贯性和角色一致性
参与高质量数据工程，包括SFT数据构建、偏好数据清洗和合成数据生成
扎实的机器学习/NLP基础，熟悉Transformer/MoE架构
精通PyTorch及主流训练框架（DeepSpeed、Megatron-LM等）
有强化学习（PPO、DPO、GRPO）应用于语言模型对齐的实际经验
对数据质量敏感，具备构建高质量SFT和偏好数据的能力

申请策略

在简历或作品集中展示开源贡献或技术博客，体现技术热情
面试前了解米哈游旗下产品的AI应用（如《星布谷地》尚在开发中），思考可能的优化方向
突出SFT、RLHF/DPO、Reward Model的实际项目经验和成果
展示在强化学习算法（PPO、GRPO等）应用于语言模型的实践
强调数据工程能力，如构建高质量SFT数据、偏好数据清洗等
如有对话系统或角色扮演相关经验，务必详细描述
补强分布式训练框架的使用（DeepSpeed、Megatron-LM等）
熟悉前沿对齐方法（RLAIF、On-Policy Distillation等），阅读最新论文

面试指南

采用STAR法则：描述场景（S）、任务（T）、行动（A）、结果（R），重点突出技术难点和解决方案
对于算法比较问题，从数学原理、实现复杂度、效果差异等维度对比，并结合自己的实践经验
回答挑战性问题时，先承认难度，再展示自己的思考路径和可能的解决方案，体现分析能力
请详细描述你过去在SFT或RLHF项目中的实践经验，遇到了哪些问题？如何解决的？
解释DPO和PPO的区别，以及各自适用的场景
如何设计Reward Model以减少Reward Hacking？请举例说明
在训练大模型时，如何保证训练稳定性？你如何调试训练过程中出现的loss震荡？
对于游戏角色扮演场景，你认为模型对齐面临哪些特殊挑战？如何解决？

职位点评

综合评分

游戏大厂、LLM后训练前沿技术、薪资高、成长快，但需现场办公且工作节奏可能较快。

更适合这类人

该职位最适合追求技术前沿、渴望在LLM领域深耕的求职者，尤其看重成长性和薪资回报。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活60

使命价值75

薪资福利

85较高

米哈游作为知名游戏公司，薪资待遇在行业中处于较高水平，且福利完善。JD中虽未明示具体薪资，但结合公司规模和职位稀缺度，预估薪资较高。

薪资信号未披露（AI估算：35K-60K/月）

成长发展

95较高

该职位聚焦LLM后训练前沿技术，涉及SFT、RLHF、PPO等最新算法，能极大提升算法和工程能力。公司有技术氛围，鼓励创新，成长空间大。

技术前沿前沿/新兴技术

技术栈LLM、Post-training、SFT、RLHF、DPO、PPO、GRPO、Reward Model、DeepSpeed、Megatron-LM

业务类型profit_center

工作生活

60中等

工作地点在上海，需要现场办公。互联网/游戏行业通常工作节奏较快，但米哈游作为成熟大厂有相对规范的工时管理。JD中未提及WLB相关信息。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

游戏行业为用户带来快乐，但社会价值相对中性。作为AI算法工程师，通过技术创新提升游戏体验，有行业影响力。JD中未明确提及使命感。

行业发展稳定成熟行业

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

LLM Post-train 算法工程师 - 星布谷地

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

LLM Post-train 算法工程师 - 星布谷地

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

2050-大模型框架开发工程师

短剧平台-H5开发工程师（海外短剧）-校招

多模态与空间智能-3D/4D生成算法工程师

短剧平台-Android开发工程师-校招

Consultant Specialist

米哈游 的其他在招职位

AI平台运营实习生

CG氛围设计-崩坏：因缘精灵

引擎开发（特效）- UE5动作预研（写实奇幻）

投放视频设计（第三方编制）

引擎开发-绝区零

相似职位推荐

2050-大模型框架开发工程师

短剧平台-H5开发工程师（海外短剧）-校招

多模态与空间智能-3D/4D生成算法工程师

短剧平台-Android开发工程师-校招

Consultant Specialist

米哈游的其他在招职位

米哈游的其他在招职位