Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

miHoYo logo
米哈游
RLHF 强化学习研究员(3D生成)
立即应聘

RLHF 强化学习研究员(3D生成)

发布于 大约 16 小时前

普通员工/个人贡献者

上海市
其它
全职员工
仅现场办公
硕士
研究与开发 (研发)
强化学习
LLM
分布式训练
vLLM
diffusion
PPO
RLHF
DPO
3D生成

AI 估算 · 25k–45k

基于上海游戏行业高水平,结合岗位对RLHF和3D生成的技术要求,具有较强竞争力

职位详情

关于这个职位

该职位是米哈游3D生成方向的研究员岗位,核心工作是利用强化学习算法(如DPO、PPO、GRPO)对三维生成大模型进行偏好对齐,提升生成质量,并探索RL scaling问题以增强模型推理能力

适合对AI Alignment和RLHF有深入研究的候选人,要求熟悉LLM、Diffusion及分布式训练框架

最低要求

硕士/博士及以上学历(或在读),计算机/数学等相关专业优先

熟悉LLM、RL、Diffusion领域的技术, 熟悉DPO,PPO,GRPO等RLHF算法
对大模型RL技术有极大热情,熟悉任意一种RLHF框架(包括不限于openRLHF、Trlx、Verl等),熟悉ray/vllm等分布式及推理加速框架
具备卓越的实验分析与问题解决能力,有创新思维,能够良好沟通、与团队成员高效协作

工作职责

面向三维生成大模型,利用强化学习算法进行偏好对齐,提升模型生成质量

探索3D领域的RL scaling问题,提升模型reasoning能力

优先资格

有AI Alignment相关研究或大模型应用项目经历的优先

有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先

AI 洞察

优缺点分析

优点

  • 米哈游作为头部游戏公司,资金充足,项目资源丰富,可参与前沿的3D生成+RL研究
  • 岗位技术含量高,接触RLHF、Diffusion等热门领域,有利于个人技术积累和职业发展
  • 公司口碑好,产品影响力大,研究成果易落地并产生实际价值
  • 技术难度大,需要同时掌握RL、LLM、3D生成等多个领域,学习曲线陡峭
  • 游戏行业竞争激烈,加班文化可能存在,工作强度不确定

缺点 / 挑战

  • 研究型岗位对论文发表和创新能力要求高,可能面临较大的产出压力
  • 适合对强化学习和AI对齐有浓厚兴趣、具备较强研究能力且能承受一定压力的技术型人才

角色解读

  • 在AI Alignment领域深耕,成为RLHF专家,主导大模型对齐策略
  • 向多模态生成方向拓展,结合3D生成与强化学习,成为跨领域研究员
  • 有机会晋升为研究团队负责人或技术Leader,引领前沿技术探索
  • 使用RLHF算法(如DPO、PPO、GRPO)对3D生成大模型进行偏好对齐,优化模型输出质量
  • 研究RL scaling law在3D领域的应用,提升模型的推理和决策能力
  • 与团队协作,设计和执行实验,分析模型表现并迭代改进
  • 精通强化学习(RL)和RLHF算法,熟悉DPO、PPO、GRPO等
  • 熟悉大语言模型(LLM)和扩散模型(Diffusion)技术
  • 掌握至少一种RLHF框架(如openRLHF、Trlx、Verl)以及分布式推理加速工具(如Ray、vLLM)
  • 具备扎实的编程能力和实验分析能力,能够独立进行模型训练和调优

申请策略

  • 在求职信中表达对米哈游游戏产品的热情,以及对3D生成+RL方向的见解
  • 关注米哈游的技术博客或开源项目,了解其技术方向,面试时可展示对公司的了解
  • 突出强化学习相关项目经验,特别是RLHF或偏好对齐方向的实际案例
  • 强调顶会论文发表经历(如ICML、NeurIPS、CVPR等),展示研究影响力
  • 详细描述在分布式训练和推理加速方面的实践经验,如使用Ray、vLLM等
  • 列出熟悉的具体算法(DPO、PPO、GRPO)和框架(openRLHF等),体现技术深度
  • 深入复习RLHF算法原理和实现细节,熟悉最新研究论文
  • 动手实践开源RLHF框架(如openRLHF),搭建小规模实验环境

面试指南

  • 对于算法对比题,先清晰阐述每个算法的核心思想和数学基础,再对比差异,最后结合应用场景给出选择建议
  • 对于设计题,采用STAR结构:说明目标(提升3D生成质量),描述方法(RLHF框架、奖励模型、数据收集),预期效果,以及可能的风险应对
  • 对于优化题,从数据并行、模型并行、流水线并行、通信优化等角度系统分析,并结合具体工具(如Ray、vLLM)给出解决方案
  • 请详细解释DPO和PPO算法的区别、优缺点及适用场景
  • 你如何设计一个RLHF训练流程来优化3D生成模型?请描述关键步骤
  • 在分布式训练中,如果遇到GPU显存不足或通信瓶颈,你会如何优化?
  • 你对RL scaling law有什么理解?在3D领域如何验证?
  • 请分享一个你曾经用RL解决实际问题的案例,包括挑战和结果

职位点评

72
综合评分

头部游戏公司前沿RLHF研究岗,技术价值高,薪资优厚,但WLB可能一般。

更适合这类人
适合以技术成长为核心动机、愿意投入高强度研究、对WLB要求不高的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展92
工作生活50
使命价值70

薪资福利

75中等

米哈游作为行业头部公司,薪资水平具有竞争力,但JD未明确具体待遇,存在不确定性。

薪资信号未披露(AI估算:25K-45K/月)

成长发展

92较高

岗位聚焦RLHF和3D生成等前沿技术,研究导向强,能显著提升个人技术深度和学术影响力。

技术前沿前沿/新兴技术
技术栈RLHF、强化学习、3D生成、LLM、Diffusion、DPO、PPO、GRPO、分布式训练、vLLM
业务类型ambiguous

工作生活

50较低

工作地点上海,JD未提及远程或弹性工作,游戏行业加班现象普遍,WLB不确定。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

70中等

3D生成+RLHF属于AI前沿,但游戏行业的社会影响力相对中性,个人成就感来自技术创新。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 游戏数据运营分析实习生

    米哈游 · 上海市
    AI 估算 · 4k-8k
  • 3D生成研究员

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 员工关系专员(第三方编制)

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • 图形算法研究员(3D生成方向)

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 招聘HR实习生(游戏程序技术&AI)

    米哈游 · 上海市
    AI 估算 · 4k-6k

相似职位推荐

  • 车身内外饰试验验证工程师

    小米 · 上海市
    AI 估算 · 15k-25k
  • 能耗优化算法工程师(AI实验室)-2027届

    小米 · 北京市
    AI 估算 · 20k-30k
  • 感知算法专家

    小米 · 北京市
    AI 估算 · 35k-65k
  • 热管理系统测试工程师-实习-2027届

    小米 · 南京市
    AI 估算 · 5k-8k
  • 算法工程师

    小米 · 武汉市
    AI 估算 · 15k-25k

米哈游 的其他在招职位

  • 游戏数据运营分析实习生

    米哈游 · 上海市
    AI 估算 · 4k-8k
  • 3D生成研究员

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 员工关系专员(第三方编制)

    米哈游 · 上海市
    AI 估算 · 8k-12k
  • 图形算法研究员(3D生成方向)

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 招聘HR实习生(游戏程序技术&AI)

    米哈游 · 上海市
    AI 估算 · 4k-6k

相似职位推荐

  • 车身内外饰试验验证工程师

    小米 · 上海市
    AI 估算 · 15k-25k
  • 能耗优化算法工程师(AI实验室)-2027届

    小米 · 北京市
    AI 估算 · 20k-30k
  • 感知算法专家

    小米 · 北京市
    AI 估算 · 35k-65k
  • 热管理系统测试工程师-实习-2027届

    小米 · 南京市
    AI 估算 · 5k-8k
  • 算法工程师

    小米 · 武汉市
    AI 估算 · 15k-25k