美团的【北斗】Agent算法研究员（强化学习、自进化方向）薪资是多少？

该职位薪资范围为 20k–30k（人民币/月）。

【北斗】Agent算法研究员（强化学习、自进化方向）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

美团的【北斗】Agent算法研究员（强化学习、自进化方向）有什么任职要求？

该职位要求本科学历及无经验要求工作经验。

美团

【北斗】Agent算法研究员（强化学习、自进化方向）

立即应聘

【北斗】Agent算法研究员（强化学习、自进化方向）

发布于大约 2 个月前

普通员工/个人贡献者

北京市

无经验要求

全职员工

仅现场办公

本科

研究与开发 (研发)

Grpo

大模型

强化学习

PPO

PyTorch

TensorFlow

不确定性感知

AI 估算 · 20k–30k

作为校招岗位，美团给予有竞争力的薪酬，大模型方向稀缺人才，薪资处于互联网大厂校招中上水平。

职位详情

关于这个职位

作为美团核心本地商业团队的一员，你将参与打造基于大模型的下一代生活服务智能平台，专注于强化学习与自进化方向的算法研究与落地

工作涉及设计主动探索机制、多轮交互奖励建模以及个性化记忆模块，推动Agent在搜索和推荐场景中的智能化升级

适合对大模型后训练、强化学习有浓厚兴趣的2027届优秀学子

最低要求

届本科及以上学历，计算机、人工智能等相关专业

在大模型后训练等方面有深入实践，具备较强的动手能力

扎实的深度学习和计算机理论基础，精通主流深度学习框架(如Tensorflow、Pytorch)

具备强悍的工程思维和代码能力，熟练使用Python/C++等编程语言

工作职责

方向一：个性化自进化与主动探索算法机制

探索与利用权衡：负责设计前沿的主动探索训练目标与触发机制，引入不确定性感知等机制，使Agent能够根据当前交互状态、上下文历史自主判断自适应进化方向

高价值信息捕获：在极低用户打扰的约束下，设计高效的主动追问与澄清策略，精准、主动地获取用户深层高价值偏好信息

方向二：多轮交互奖励建模与RL策略优化

长期价值奖励建模：负责构建面向长期交互与用户留存的奖励模型体系，将用户显式反馈（追问、点击）与隐式行为（停留、改写）转化为高置信度的显式/隐式奖励信号

强化学习策略对齐：运用先进的强化学习算法（如PPO、GRPO、在线/交互式RL），优化模型在多轮对话与AI搜索场景下的样本效率与收敛性

基于严谨的理论框架（如收敛性保证、遗憾界分析），指导算法的原则性设计，确保策略在复杂、长尾多场景迁移时的可解释性与可靠性

方向三：Agent闭环体系建设与全链路落地

可插拔个性化内化模块：研发高容量、强泛化性的个性化信息内化与记忆模块，动态攻克信息更新频率与偏好识别精度之间的权衡难题

优先资格

在ICLR/ICML/NIPS/ACL/CVPR等国际顶会有论文发表经历优先

优秀的分析、解决问题能力，对AGI的未来趋势与挑战有浓厚兴趣

对解决挑战性问题充满激情，较强的责任心、主动性和韧性，能良好的沟通协作

AI 洞察

优缺点分析

优点

背靠美团核心业务，研究成果直接服务数亿用户，影响力巨大
团队拥有多位北斗、博士，技术氛围浓厚，可快速学习前沿知识
研究方向处于AI最前沿（Agent、RL、大模型），职业发展空间广阔
扁平化管理，个人有机会主导关键模块，成长速度较快
技术难度高，需要同时掌握强化学习、大模型和工程实现，学习曲线陡峭
作为校招生，可能面临与经验丰富的同事竞争，需要快速证明自己
适合对强化学习与大模型结合充满热情、具备扎实理论基础和工程能力、渴望在顶尖团队中快速成长的2027届优秀学子

缺点 / 挑战

业务落地要求高，需在理论研究与实际效果之间取得平衡，压力较大

角色解读

从研究员成长为算法专家，主导Agent在搜索推荐场景的核心技术突破
向大模型全栈方向发展，覆盖数据、训练、部署、评测全链路
未来可晋升为技术骨干或团队Leader，引领生成式智能在生活服务领域的落地
设计主动探索与不确定性感知机制，使Agent能自主判断何时进化、如何获取用户深层偏好
构建长期交互奖励模型，将用户显式/隐式反馈转化为高置信度奖励信号
应用PPO、GRPO等强化学习算法优化多轮对话策略，并确保算法的理论收敛性与可解释性
研发个性化记忆模块，平衡信息更新频率与偏好识别精度，推动Agent全链路落地
扎实的深度学习和强化学习理论功底，熟悉PPO、GRPO等先进算法
精通PyTorch或TensorFlow，具备大模型后训练实践经验
优秀的工程能力，熟练使用Python/C++，能高效实现复杂算法
具备探索精神，对不确定性建模、奖励设计、在线学习等方向有深入理解

申请策略

深入了解美团搜索推荐业务场景，在面试中展示对技术落地的思考
准备一个完整的项目案例，从问题定义、算法设计到实验效果，体现独立解决能力
突出在大模型后训练、强化学习方面的项目或研究经历，包括使用的算法和框架
展示顶会论文发表记录，特别是ICLR/ICML/NIPS等，直接加分
强调工程能力，如用Python/C++实现的复杂系统或开源贡献
描述与探索-利用、奖励建模相关的竞赛或课题，体现理论与实践结合
建议提前熟悉PPO、GRPO等强化学习算法的手动实现，并理解其理论细节
学习大模型微调技术（如LoRA、RLHF），掌握开源工具（如HuggingFace TRL）

面试指南

对于算法原理问题，采用“核心思想+数学公式+优缺点”的结构，先给出直观解释，再补充技术细节
对于设计问题，采用“问题分析-方案设计-评估方法”的逻辑，展示系统性思考
对于项目经验问题，采用STAR法则（情境、任务、行动、结果），并突出你的独特贡献
请解释PPO算法的核心思路，并说明它与传统策略梯度方法的区别
如何设计一个奖励函数来平衡短期用户点击和长期留存？
在探索与利用中，如何选择不确定性度量方法？举例说明
你对大模型后训练（post-training）的理解是什么？当前有哪些主流范式？
请描述你做过的一个强化学习项目，遇到的主要挑战是什么？如何解决的？

职位点评

综合评分

美团核心团队，大模型+强化学习前沿方向，技术成长极高，但需现场办公且工作节奏紧凑。

从起薪待遇、成长路径、工作节奏和岗位方向综合评估，方便比较职业起点。

更适合这类人

最适合追求技术成长和前沿研究、愿意在快节奏中积累核心竞争力的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利60

成长发展90

工作生活40

使命价值70

薪资福利

60中等

作为大厂校招，薪资有一定竞争力，但未明确披露具体范围，且校招岗位稳定性较好，但福利等未提及，补偿性动机满足程度中等。

薪资信号未披露（AI估算：20K-30K/月）

成长发展

90较高

岗位处于大模型与强化学习的前沿，团队技术实力强，有论文发表机会，成长路径清晰，发展性动机满足度高。

技术前沿前沿/新兴技术

技术栈强化学习、大模型、PPO、GRPO、Agent、不确定性感知、PyTorch、TensorFlow

成长机会团队内有多位北斗、博士、个人成长快、创新型团队扁平化管理

业务类型profit_center

工作生活

40较低

仅现场办公，未提及弹性工作或远程，北京地区通勤压力较大，加班情况不明，生活方式满足度较低。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

美团本地生活业务与用户日常生活紧密相关，AI赋能可提升数亿用户体验，具有一定的社会意义，但商业属性较强，使命感中等偏上。

行业发展稳定成熟行业

社会影响中性/一般

使命信号用AI能力重新定义下一代生活服务入口

创新程度积极采用新技术

美团的其他在招职位

相似职位推荐

Watch Jobs

【北斗】Agent算法研究员（强化学习、自进化方向）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

美团的其他在招职位

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

【北斗】Agent算法研究员（强化学习、自进化方向）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

美团 的其他在招职位

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

美团的其他在招职位