美团的【LongCat大模型人才校招】基础大模型 Post-training 算法研究员薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

【LongCat大模型人才校招】基础大模型 Post-training 算法研究员的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

美团的【LongCat大模型人才校招】基础大模型 Post-training 算法研究员有什么任职要求？

该职位要求博士学历及无经验要求工作经验。

美团

【LongCat大模型人才校招】基础大模型 Post-training 算法研究员

立即应聘

【LongCat大模型人才校招】基础大模型 Post-training 算法研究员

发布于大约 2 个月前

普通员工/个人贡献者

北京市

无经验要求

全职员工

仅现场办公

博士

研究与开发 (研发)

分布式训练

后训练

大模型

对齐

强化学习

推理

机器学习

自然语言处理

LLM

AI 估算 · 30k–50k

北京大厂算法岗，博士/硕士校招，薪资竞争力强，参考行业水平。

职位详情

关于这个职位

该职位负责大语言模型的后训练与对齐优化，包括指令遵循、幻觉缓解、复杂推理等核心能力提升，以及大规模强化学习训练管线的构建

你将参与前沿技术研究，推动模型在真实复杂任务中的深度思考与可靠行动能力

适合对大模型训练、RL算法有浓厚兴趣的优秀毕业生

最低要求

全球Top高校计算机科学、人工智能、数学、物理或相关领域应届博士/顶尖硕士毕业生

在大模型领域有研究基础，或参与过有影响力的开源项目，在ICLR/NeurIPS/ICML/ACL等顶会发表论文

具备扎实的算法和数学理论基础及良好的编程基础，熟悉自然语言处理、生成式AI和机器学习等技术，对技术开发及应用有热情

工作职责

）大模型核心基础能力优化

围绕指令遵循、幻觉缓解、复杂推理、智能体规划等关键能力，研究并开发高效的后训练与对齐方案

深入分析模型行为，通过数据策略、奖励建模、训练范式创新等，系统性提升模型的可靠性与实用性

）大规模强化学习与多目标RL训练

研究大规模强化学习（RL）及多目标强化学习的训练方案，突破RL在超大模型上的训练稳定性与扩展性问题

构建可长期演进、稳定高效的RL Scaling训练管线，从算法、系统、数据等多维度推动模型能力持续提升

）长周期场景下的复杂推理与工具调用

聚焦Long Horizon任务中的多步推理、工具使用与自主智能体能力，设计并实现前沿优化方案

探索包括高质量数据合成、长上下文管理、长上下文强化学习、过程监督、搜索与规划结合等关键技术，提升模型在复杂真实场景下的表现

优先资格

目标感强，善于分析和发现问题，拆解简化，有想法并乐于挑战自我，能够从日常工作中发现新的空间

条理性强且有推动力，能够梳理繁杂的工作并建立有效机制，推动上下游配合完成目标

在程序设计竞赛，如ACM/ICPC、Topcoder和Codeforces等，取得优异成绩者优先

AI 洞察

优缺点分析

优点

参与核心大模型研发，技术前沿，个人成长空间大
团队学术氛围浓厚，有充足算力和数据资源支持
美团平台稳定，福利待遇优厚
大模型训练周期长，实验迭代速度可能较慢
竞争激烈，对论文和算法能力要求极高
适合对AI研究有强烈热情、具备扎实科研背景、渴望在AGI前沿领域做出成果的应届博士或顶尖硕士

缺点 / 挑战

研究任务挑战性高，需要较强的创新和抗压能力

角色解读

技术专精方向：深耕大模型后训练与RL算法，成为领域专家
技术管理方向：积累项目经验后转型为技术Leader，带领团队攻关
横向扩展方向：向AI系统、数据工程或产品方向延伸，拓宽职业路径
设计并实施大模型的后训练方案，提升指令遵循、推理、规划等核心能力
研究大规模强化学习训练方法，解决训练稳定性和扩展性问题
探索长周期复杂任务中的多步推理、工具调用与自主智能体技术
构建高效的RL训练管线，协同算法、系统和数据团队推动模型迭代
扎实的机器学习、深度学习和自然语言处理基础
熟悉大模型训练流程，包括监督微调、RLHF等
精通Python，熟悉PyTorch等深度学习框架，有分布式训练经验
具备独立研究和解决问题的能力，有顶会论文发表经历

申请策略

在简历中明确表达你对大模型后训练或RL算法的具体兴趣点
提前了解美团基础研发平台的技术方向和团队成果，在面试中展现主动思考
突出顶会论文发表经历，尤其是与大模型、强化学习相关的贡献
详细描述参与过的开源项目或大型模型训练项目，说明个人角色和成果
强调数学、算法竞赛获奖经历，展示逻辑思维和编程能力
如有实习经历，重点说明在大模型对齐或RL方面的实际经验
系统学习强化学习理论（如PPO、DPO、GRPO）及工程实现
熟悉主流大模型架构（LLaMA、GPT等）和训练框架（DeepSpeed、Megatron等）

面试指南

用STAR法则描述项目：情境、任务、行动、结果，突出技术细节和你的贡献
分析问题时先定义问题，再提出多种解决方案，对比优劣，最后给出推荐
对于开放性问题，结合论文或实践案例，展示你的思考深度
请详细介绍一下你参与过的大模型训练项目，你负责的部分和遇到的挑战
谈谈你对RLHF的理解和优化方向，比如如何缓解奖励黑客问题
如何设计一个强化学习训练管线来提升模型的推理能力？
你对Long Horizon任务中的多步推理有什么想法？
如何平衡模型性能与训练效率？

职位点评

综合评分

大厂核心AI部门，前沿大模型研究岗，发展性极强，但工作生活平衡一般。

从起薪待遇、成长路径、工作节奏和岗位方向综合评估，方便比较职业起点。

更适合这类人

最适合追求技术前沿、渴望科研突破、愿意为成长投入时间的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活50

使命价值85

薪资福利

75中等

薪资具有竞争力，美团作为上市公司福利完善，但校招起薪一般，整体补偿性较好。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

95较高

该职位提供顶级的技术成长环境，参与前沿大模型研发，团队学术产出丰富，发展性极强。

技术前沿前沿/新兴技术

技术栈大模型、强化学习、RL、后训练、LLM、分布式训练、对齐、推理

成长机会团队扁平、人才密度高、顶会论文、前沿技术、充足算力

业务类型profit_center

工作生活

50较低

北京办公，现场工作，未提及弹性工作或加班情况，工作生活平衡一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

85较高

参与AGI核心研发，推动AI能力跃迁，社会影响力和创新性很高，意义感强。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号推动模型实现从“会说”到“会做”的跨越

创新程度开拓性创新（行业首创）

美团的其他在招职位

相似职位推荐

Watch Jobs

【LongCat大模型人才校招】基础大模型 Post-training 算法研究员

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

美团的其他在招职位

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

【LongCat大模型人才校招】基础大模型 Post-training 算法研究员

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

美团 的其他在招职位

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

美团的其他在招职位