百度的北京-大模型RLHF强化学习算法工程师（文心一言）(J86751)薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

北京-大模型RLHF强化学习算法工程师（文心一言）(J86751)的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求硕士学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：21 天前

这是一个专注于大模型后训练与强化学习的算法工程师职位

你将负责研发大模型（文本、多模态）的Post-training算法，特别是SFT、RLHF等前沿技术，并构建高质量的RLHF训练集与评估体系

同时，你需要开发和优化大规模分布式强化学习训练框架，以提升模型的训练与推理效率

工作内容：

负责大模型Post-training（文本、多模态）的算法研发工作

创新大模型后训练算法（包括SFT/RLHF/RM等方向），研究大模型对齐人类偏好前瞻技术和趋势

构建高质量RLHF训练集和评估方式，深入大模型能力分析，制定系统性高效优化方案

负责大规模分布式RL训练框架开发优化，提升训练和推理效率

任职资格：

硕士以上学历，具备自然语言处理/计算机视觉的理论背景和实践经验，在AI顶会发表LLM相关论文者优先

深入理解大模型后训练相关技术并有一定实践经验，包括SFT/RLHF/RAILF/RM等，有强化学习相关工作经验者优先

熟练掌握Python编程语言以及Pytorch、Tensorflow、PaddlePaddle等其中一项深度学习开发框架，有OpenRL、Verl等开源RL框架使用经验者优先

有较强的学术比赛经验或者在知名数据集的 Leaderboard 上排名靠前优先

有较强的代码能力，有高质量的中大型项目或个人开源项目的经验优先

优先资质：

在AI顶会发表LLM相关论文者优先

有强化学习相关工作经验者优先

有OpenRL、Verl等开源RL框架使用经验者优先

有较强的学术比赛经验或者在知名数据集的 Leaderboard 上排名靠前优先

有高质量的中大型项目或个人开源项目的经验优先

北京-大模型RLHF强化学习算法工程师（文心一言）(J86751)

🤖 AI 估测：¥35K-60K

发布时间：21 天前