美团的【基座大模型北斗实习】大模型后训练研究薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【基座大模型北斗实习】大模型后训练研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

美团的【基座大模型北斗实习】大模型后训练研究有什么任职要求？

该职位要求学历未注明学历及初级经验工作经验。

【基座大模型北斗实习】大模型后训练研究

🤖 AI 估测：¥8K-15K

发布时间：22 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大模型后训练系统研发的实习岗位

你将参与设计和优化大规模强化学习（RL）训练系统，包括RLHF、RLVR等前沿范式，致力于提升模型能力与应用生产力

工作内容涵盖训练系统架构、在线采样优化、训推一致性、训练稳定性及长程任务训练等多个技术方向

✓工作职责

岗位职责简介：负责大规模强化学习系统设计、分布式调优、调度优化、算法 co-design等，包括不限于 RLHF、RLVR、Agentic RL等范式

和算法共同提升模型各类专项能力，应用生产力等等你可能从事以下方向：

RL训练系统架构

①设计和实现支持 PPO及各类变种算法的高效训练框架

②Data/Env Scaling，优化并发调度效率

在线采样 & Rollout 优化

①优化RL场景（longcot、长尾分布、多轮交互）推理引擎效率，包括不限于量化、MTP、并行切分等等

②训推混部署、全流程异步训练，提升 GPU 利用率

训推一致性

①训推引擎天然为了各自最大化效率存在精度差异，研究如何不断降低两者diff，包括不限于 Routing Replay、确定性计算等等

训练稳定性

①攻克RL训练特有的奖励Hacking、训练不稳定、KL爆炸等系统层面问题

②设计细粒度的训练过程监控：reward曲线、KL散度、entropy变化实时可观测

③优化 PPO clip、advantage normalization 等关键超参的自动调节机制

、长程任务训练优化

①长程任务奖励稀疏、过程难精确控制，研究如何系统性的优化其中工程和算法挑战

⭐最低要求

了解 PPO / GRPO / DPO 算法原理，最好动手实现过

用过 veRL / OpenRLHF / TRL 等RL训练框架

有 vLLM / SGLang / TensorRT-LLM 推理加速经验（rollout优化必备）

做过多机多卡训练，理解显存管理和通信开销

RL系统相关顶会论文（NeurIPS/ICML/ICLR/MLSys）

核心评价

【基座大模型北斗实习】大模型后训练研究

ℹ️关于这个职位

✓工作职责

⭐最低要求

美团的其他在招职位

相似职位推荐

【基座大模型北斗实习】大模型后训练研究

ℹ️关于这个职位

✓工作职责

⭐最低要求

美团 的其他在招职位

相似职位推荐

美团的其他在招职位