【北斗】基座大模型算法研究员(强化学习)

🤖 AI 估测:¥45K-80K

发布时间:27 天前

立即应聘

ℹ️关于这个职位

该职位是美团北斗团队的大模型算法研究员,专注于强化学习方向
你将负责研究下一代大模型的强化训练范式,设计并实现强化训练Pipeline,以提升大模型在复杂推理、代码生成、自动软件开发等端到端Agent任务上的表现
这是一个面向前沿技术探索和落地的核心研发岗位

工作职责

研究下一代大模型强化训练范式,持续扩展强化学习,提升大模型在复杂推理和端到端Agent任务(如代码、STEM、Agentic Tool Use、Deep Research、自动软件开发等任务)上的表现
设计并实现强化训练Pipeline,包括Agent环境和任务、奖励信号、训练策略等
研究大模型强化训练相关的关键算法问题,包括稀疏奖励、课程学习、强化算法(如PPO/GRPO)等

最低要求

具备扎实的机器学习基础和强悍的编码能力,熟悉Python、C++ 等至少一门编程语言
熟悉Pytorch、 Megatron、DeepSpeed、VeRL 等开源框架
熟悉主流大模型以及Agent强化训练Pipeline,熟悉DPO/PPO/GRPO等算法
具备优秀的分析和解决问题能力,具有较好的团队协作能力

👍优先资格

在有影响力的开源项目中做出过核心贡献
发表过高水平论文优先(如NeurIPS,ICLR,ICML等)