Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/米哈游/RLHF 强化学习研究员(3D生成)
miHoYo logo
m
米哈游 (miHoYo)

职位信息

上海市
中级经验
全职员工
仅现场办公
硕士
普通员工/个人贡献者

标签

强化学习大语言模型分布式训练vLLMdiffusionPPORLHFDPO3D生成Ai Alignment
💡

核心评价

前沿AI研究岗,技术成长性极佳,薪资竞争力强,但需适应一线城市现场办公节奏。

RLHF 强化学习研究员(3D生成)

🤖 AI 估测:¥35K-60K

发布时间:14 天前

立即应聘

ℹ️关于这个职位

这是一个专注于3D生成大模型强化学习对齐的研究岗位
你将运用RLHF等算法,提升模型生成质量与推理能力,探索3D领域的RL规模化问题
工作内容前沿,需要扎实的算法基础和实验分析能力

✓工作职责

面向三维生成大模型,利用强化学习算法进行偏好对齐,提升模型生成质量
探索3D领域的RL scaling问题,提升模型reasoning能力

⭐最低要求

硕士/博士及以上学历(或在读),计算机/数学等相关专业优先
熟悉LLM、RL、Diffusion领域的技术, 熟悉DPO,PPO,GRPO等RLHF算法
对大模型RL技术有极大热情,熟悉任意一种RLHF框架(包括不限于openRLHF、Trlx、Verl等),熟悉ray/vllm等分布式及推理加速框架
具备卓越的实验分析与问题解决能力,有创新思维,能够良好沟通、与团队成员高效协作

👍优先资格

有AI Alignment相关研究或大模型应用项目经历的优先
有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 业务助理

    米哈游

    上海市 · 仅现场办公

  • 资深系统策划(社交)-生活MMO

    米哈游

    上海市 · 仅现场办公

  • 版本运营-星布谷地

    米哈游

    上海市 · 仅现场办公

  • 资深系统策划-生活MMO

    米哈游

    上海市 · 仅现场办公

  • 资深市场公关(媒体关系方向)-原神

    米哈游

    上海市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公