月之暗面的RL Infra 研究工程师薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

RL Infra 研究工程师的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及高级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：6 天前

该职位是月之暗面公司的RL Infra研究工程师，主要负责开发和维护公司内部的强化学习后训练框架，以支持万亿参数大模型在推理、智能体等方向的文本与多模态训练

你将与训练推理引擎团队紧密合作，探索算法、框架与硬件的协同设计，致力于提升大规模强化学习训练的稳定性和效率

这是一个专注于AI基础设施前沿、技术挑战性高的核心研发岗位

主要负责维护和开发Moonshot内部的强化学习后训练框架，支持万亿参数模型reasoning、agentic等方向的文本&多模态RL后训练

与训练推理引擎方向的团队合作，探索算法、框架、硬件的协同设计，提升大规模强化学习训练的稳定性和效率

有扎实的工程算法基础和工程实现能力，熟悉Python等语言，熟练掌握Pytorch等深度学习框架和常见性能调试/分析工具

对Megatron-LM/vLLM等主流训推引擎有深入的了解，对大模型RL训练中的实际问题（如训推不一致、Rollout长尾等）排查和解决有经验

有扎实的强化学习算法基础和实际RL训练经验

有出色的开源项目经历（如为vLLM、VeRL等框架提交过重要PR）、对口的顶会发表者（如RL稳定性、环境scaling、长尾问题解决等Paper）优先

业界知名RL框架经验（如verl、roll、slime等） / 开源项目贡献者 / 顶会paper

RL Infra 研究工程师

🤖 AI 估测：¥45K-80K

发布时间：6 天前