米哈游的RLHF 强化学习研究员（3D生成）薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

RLHF 强化学习研究员（3D生成）的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

该职位要求硕士学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：14 天前

这是一个专注于3D生成大模型强化学习对齐的研究岗位

你将运用RLHF等算法，提升模型生成质量与推理能力，探索3D领域的RL规模化问题

工作内容前沿，需要扎实的算法基础和实验分析能力

面向三维生成大模型，利用强化学习算法进行偏好对齐，提升模型生成质量

探索3D领域的RL scaling问题，提升模型reasoning能力

硕士/博士及以上学历（或在读），计算机/数学等相关专业优先

熟悉LLM、RL、Diffusion领域的技术, 熟悉DPO,PPO,GRPO等RLHF算法

对大模型RL技术有极大热情，熟悉任意一种RLHF框架（包括不限于openRLHF、Trlx、Verl等），熟悉ray/vllm等分布式及推理加速框架

具备卓越的实验分析与问题解决能力，有创新思维，能够良好沟通、与团队成员高效协作

有AI Alignment相关研究或大模型应用项目经历的优先

有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先

RLHF 强化学习研究员（3D生成）

🤖 AI 估测：¥35K-60K

发布时间：14 天前