美团的【北斗】基座大模型算法研究员（强化学习）薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

【北斗】基座大模型算法研究员（强化学习）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及高级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：27 天前

该职位是美团北斗团队的大模型算法研究员，专注于强化学习方向

你将负责研究下一代大模型的强化训练范式，设计并实现强化训练Pipeline，以提升大模型在复杂推理、代码生成、自动软件开发等端到端Agent任务上的表现

这是一个面向前沿技术探索和落地的核心研发岗位

研究下一代大模型强化训练范式，持续扩展强化学习，提升大模型在复杂推理和端到端Agent任务（如代码、STEM、Agentic Tool Use、Deep Research、自动软件开发等任务）上的表现

设计并实现强化训练Pipeline，包括Agent环境和任务、奖励信号、训练策略等

研究大模型强化训练相关的关键算法问题，包括稀疏奖励、课程学习、强化算法（如PPO/GRPO）等

具备扎实的机器学习基础和强悍的编码能力，熟悉Python、C++ 等至少一门编程语言

熟悉Pytorch、 Megatron、DeepSpeed、VeRL 等开源框架

熟悉主流大模型以及Agent强化训练Pipeline，熟悉DPO/PPO/GRPO等算法

具备优秀的分析和解决问题能力，具有较好的团队协作能力

在有影响力的开源项目中做出过核心贡献

发表过高水平论文优先（如NeurIPS，ICLR，ICML等）