米哈游的RLHF 强化学习研究员（3D生成）薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

RLHF 强化学习研究员（3D生成）的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

米哈游的RLHF 强化学习研究员（3D生成）有什么任职要求？

该职位要求硕士学历及其它工作经验。

米哈游

RLHF 强化学习研究员（3D生成）

立即应聘

RLHF 强化学习研究员（3D生成）

发布于大约 16 小时前

普通员工/个人贡献者

上海市

其它

全职员工

仅现场办公

硕士

研究与开发 (研发)

强化学习

LLM

分布式训练

vLLM

diffusion

PPO

RLHF

DPO

3D生成

AI 估算 · 25k–45k

基于上海游戏行业高水平，结合岗位对RLHF和3D生成的技术要求，具有较强竞争力

职位详情

关于这个职位

该职位是米哈游3D生成方向的研究员岗位，核心工作是利用强化学习算法（如DPO、PPO、GRPO）对三维生成大模型进行偏好对齐，提升生成质量，并探索RL scaling问题以增强模型推理能力

适合对AI Alignment和RLHF有深入研究的候选人，要求熟悉LLM、Diffusion及分布式训练框架

最低要求

硕士/博士及以上学历（或在读），计算机/数学等相关专业优先

熟悉LLM、RL、Diffusion领域的技术, 熟悉DPO,PPO,GRPO等RLHF算法

对大模型RL技术有极大热情，熟悉任意一种RLHF框架（包括不限于openRLHF、Trlx、Verl等），熟悉ray/vllm等分布式及推理加速框架

具备卓越的实验分析与问题解决能力，有创新思维，能够良好沟通、与团队成员高效协作

工作职责

面向三维生成大模型，利用强化学习算法进行偏好对齐，提升模型生成质量

探索3D领域的RL scaling问题，提升模型reasoning能力

优先资格

有AI Alignment相关研究或大模型应用项目经历的优先

有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先

AI 洞察

优缺点分析

优点

米哈游作为头部游戏公司，资金充足，项目资源丰富，可参与前沿的3D生成+RL研究
岗位技术含量高，接触RLHF、Diffusion等热门领域，有利于个人技术积累和职业发展
公司口碑好，产品影响力大，研究成果易落地并产生实际价值
技术难度大，需要同时掌握RL、LLM、3D生成等多个领域，学习曲线陡峭
游戏行业竞争激烈，加班文化可能存在，工作强度不确定

缺点 / 挑战

研究型岗位对论文发表和创新能力要求高，可能面临较大的产出压力
适合对强化学习和AI对齐有浓厚兴趣、具备较强研究能力且能承受一定压力的技术型人才

角色解读

在AI Alignment领域深耕，成为RLHF专家，主导大模型对齐策略
向多模态生成方向拓展，结合3D生成与强化学习，成为跨领域研究员
有机会晋升为研究团队负责人或技术Leader，引领前沿技术探索
使用RLHF算法（如DPO、PPO、GRPO）对3D生成大模型进行偏好对齐，优化模型输出质量
研究RL scaling law在3D领域的应用，提升模型的推理和决策能力
与团队协作，设计和执行实验，分析模型表现并迭代改进
精通强化学习（RL）和RLHF算法，熟悉DPO、PPO、GRPO等
熟悉大语言模型（LLM）和扩散模型（Diffusion）技术
掌握至少一种RLHF框架（如openRLHF、Trlx、Verl）以及分布式推理加速工具（如Ray、vLLM）
具备扎实的编程能力和实验分析能力，能够独立进行模型训练和调优

申请策略

在求职信中表达对米哈游游戏产品的热情，以及对3D生成+RL方向的见解
关注米哈游的技术博客或开源项目，了解其技术方向，面试时可展示对公司的了解
突出强化学习相关项目经验，特别是RLHF或偏好对齐方向的实际案例
强调顶会论文发表经历（如ICML、NeurIPS、CVPR等），展示研究影响力
详细描述在分布式训练和推理加速方面的实践经验，如使用Ray、vLLM等
列出熟悉的具体算法（DPO、PPO、GRPO）和框架（openRLHF等），体现技术深度
深入复习RLHF算法原理和实现细节，熟悉最新研究论文
动手实践开源RLHF框架（如openRLHF），搭建小规模实验环境

面试指南

对于算法对比题，先清晰阐述每个算法的核心思想和数学基础，再对比差异，最后结合应用场景给出选择建议
对于设计题，采用STAR结构：说明目标（提升3D生成质量），描述方法（RLHF框架、奖励模型、数据收集），预期效果，以及可能的风险应对
对于优化题，从数据并行、模型并行、流水线并行、通信优化等角度系统分析，并结合具体工具（如Ray、vLLM）给出解决方案
请详细解释DPO和PPO算法的区别、优缺点及适用场景
你如何设计一个RLHF训练流程来优化3D生成模型？请描述关键步骤
在分布式训练中，如果遇到GPU显存不足或通信瓶颈，你会如何优化？
你对RL scaling law有什么理解？在3D领域如何验证？
请分享一个你曾经用RL解决实际问题的案例，包括挑战和结果

职位点评

综合评分

头部游戏公司前沿RLHF研究岗，技术价值高，薪资优厚，但WLB可能一般。

更适合这类人

适合以技术成长为核心动机、愿意投入高强度研究、对WLB要求不高的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展92

工作生活50

使命价值70

薪资福利

75中等

米哈游作为行业头部公司，薪资水平具有竞争力，但JD未明确具体待遇，存在不确定性。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

92较高

岗位聚焦RLHF和3D生成等前沿技术，研究导向强，能显著提升个人技术深度和学术影响力。

技术前沿前沿/新兴技术

技术栈RLHF、强化学习、3D生成、LLM、Diffusion、DPO、PPO、GRPO、分布式训练、vLLM

业务类型ambiguous

工作生活

50较低

工作地点上海，JD未提及远程或弹性工作，游戏行业加班现象普遍，WLB不确定。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

3D生成+RLHF属于AI前沿，但游戏行业的社会影响力相对中性，个人成就感来自技术创新。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

米哈游

RLHF 强化学习研究员（3D生成）

立即应聘

RLHF 强化学习研究员（3D生成）

发布于大约 16 小时前

普通员工/个人贡献者

上海市

其它

全职员工

仅现场办公

硕士

研究与开发 (研发)

强化学习

LLM

分布式训练

vLLM

diffusion

PPO

RLHF

DPO

3D生成

AI 估算 · 25k–45k

基于上海游戏行业高水平，结合岗位对RLHF和3D生成的技术要求，具有较强竞争力

职位详情

关于这个职位

适合对AI Alignment和RLHF有深入研究的候选人，要求熟悉LLM、Diffusion及分布式训练框架

最低要求

硕士/博士及以上学历（或在读），计算机/数学等相关专业优先

熟悉LLM、RL、Diffusion领域的技术, 熟悉DPO,PPO,GRPO等RLHF算法

对大模型RL技术有极大热情，熟悉任意一种RLHF框架（包括不限于openRLHF、Trlx、Verl等），熟悉ray/vllm等分布式及推理加速框架

具备卓越的实验分析与问题解决能力，有创新思维，能够良好沟通、与团队成员高效协作

工作职责

面向三维生成大模型，利用强化学习算法进行偏好对齐，提升模型生成质量

探索3D领域的RL scaling问题，提升模型reasoning能力

优先资格

有AI Alignment相关研究或大模型应用项目经历的优先

有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先

AI 洞察

优缺点分析

优点

米哈游作为头部游戏公司，资金充足，项目资源丰富，可参与前沿的3D生成+RL研究
岗位技术含量高，接触RLHF、Diffusion等热门领域，有利于个人技术积累和职业发展
公司口碑好，产品影响力大，研究成果易落地并产生实际价值
技术难度大，需要同时掌握RL、LLM、3D生成等多个领域，学习曲线陡峭
游戏行业竞争激烈，加班文化可能存在，工作强度不确定

缺点 / 挑战

研究型岗位对论文发表和创新能力要求高，可能面临较大的产出压力
适合对强化学习和AI对齐有浓厚兴趣、具备较强研究能力且能承受一定压力的技术型人才

角色解读

在AI Alignment领域深耕，成为RLHF专家，主导大模型对齐策略
向多模态生成方向拓展，结合3D生成与强化学习，成为跨领域研究员
有机会晋升为研究团队负责人或技术Leader，引领前沿技术探索
使用RLHF算法（如DPO、PPO、GRPO）对3D生成大模型进行偏好对齐，优化模型输出质量
研究RL scaling law在3D领域的应用，提升模型的推理和决策能力
与团队协作，设计和执行实验，分析模型表现并迭代改进
精通强化学习（RL）和RLHF算法，熟悉DPO、PPO、GRPO等
熟悉大语言模型（LLM）和扩散模型（Diffusion）技术
掌握至少一种RLHF框架（如openRLHF、Trlx、Verl）以及分布式推理加速工具（如Ray、vLLM）
具备扎实的编程能力和实验分析能力，能够独立进行模型训练和调优

申请策略

在求职信中表达对米哈游游戏产品的热情，以及对3D生成+RL方向的见解
关注米哈游的技术博客或开源项目，了解其技术方向，面试时可展示对公司的了解
突出强化学习相关项目经验，特别是RLHF或偏好对齐方向的实际案例
强调顶会论文发表经历（如ICML、NeurIPS、CVPR等），展示研究影响力
详细描述在分布式训练和推理加速方面的实践经验，如使用Ray、vLLM等
列出熟悉的具体算法（DPO、PPO、GRPO）和框架（openRLHF等），体现技术深度
深入复习RLHF算法原理和实现细节，熟悉最新研究论文
动手实践开源RLHF框架（如openRLHF），搭建小规模实验环境

面试指南

对于算法对比题，先清晰阐述每个算法的核心思想和数学基础，再对比差异，最后结合应用场景给出选择建议
对于设计题，采用STAR结构：说明目标（提升3D生成质量），描述方法（RLHF框架、奖励模型、数据收集），预期效果，以及可能的风险应对
对于优化题，从数据并行、模型并行、流水线并行、通信优化等角度系统分析，并结合具体工具（如Ray、vLLM）给出解决方案
请详细解释DPO和PPO算法的区别、优缺点及适用场景
你如何设计一个RLHF训练流程来优化3D生成模型？请描述关键步骤
在分布式训练中，如果遇到GPU显存不足或通信瓶颈，你会如何优化？
你对RL scaling law有什么理解？在3D领域如何验证？
请分享一个你曾经用RL解决实际问题的案例，包括挑战和结果

职位点评

综合评分

头部游戏公司前沿RLHF研究岗，技术价值高，薪资优厚，但WLB可能一般。

更适合这类人

适合以技术成长为核心动机、愿意投入高强度研究、对WLB要求不高的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展92

工作生活50

使命价值70

薪资福利

75中等

米哈游作为行业头部公司，薪资水平具有竞争力，但JD未明确具体待遇，存在不确定性。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

92较高

岗位聚焦RLHF和3D生成等前沿技术，研究导向强，能显著提升个人技术深度和学术影响力。

技术前沿前沿/新兴技术

技术栈RLHF、强化学习、3D生成、LLM、Diffusion、DPO、PPO、GRPO、分布式训练、vLLM

业务类型ambiguous

工作生活

50较低

工作地点上海，JD未提及远程或弹性工作，游戏行业加班现象普遍，WLB不确定。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

3D生成+RLHF属于AI前沿，但游戏行业的社会影响力相对中性，个人成就感来自技术创新。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

RLHF 强化学习研究员（3D生成）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

RLHF 强化学习研究员（3D生成）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

游戏数据运营分析实习生

3D生成研究员

员工关系专员（第三方编制）

图形算法研究员（3D生成方向）

招聘HR实习生（游戏程序技术&AI）

相似职位推荐

车身内外饰试验验证工程师

能耗优化算法工程师（AI实验室）-2027届

感知算法专家

热管理系统测试工程师-实习-2027届

算法工程师

米哈游 的其他在招职位

游戏数据运营分析实习生

3D生成研究员

员工关系专员（第三方编制）

图形算法研究员（3D生成方向）

招聘HR实习生（游戏程序技术&AI）

相似职位推荐

车身内外饰试验验证工程师

能耗优化算法工程师（AI实验室）-2027届

感知算法专家

热管理系统测试工程师-实习-2027届

算法工程师

米哈游的其他在招职位

米哈游的其他在招职位