Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Meituan logo
美团
【北斗】Agent算法研究员(强化学习、自进化方向)
立即应聘

【北斗】Agent算法研究员(强化学习、自进化方向)

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
无经验要求
全职员工
仅现场办公
本科
研究与开发 (研发)
PyTorch
强化学习
TensorFlow
大模型
PPO
Grpo
不确定性感知

AI 估算 · 20k–30k

作为校招岗位,美团给予有竞争力的薪酬,大模型方向稀缺人才,薪资处于互联网大厂校招中上水平。

职位详情

关于这个职位

作为美团核心本地商业团队的一员,你将参与打造基于大模型的下一代生活服务智能平台,专注于强化学习与自进化方向的算法研究与落地

工作涉及设计主动探索机制、多轮交互奖励建模以及个性化记忆模块,推动Agent在搜索和推荐场景中的智能化升级
适合对大模型后训练、强化学习有浓厚兴趣的2027届优秀学子

最低要求

届本科及以上学历,计算机、人工智能等相关专业

在大模型后训练等方面有深入实践,具备较强的动手能力
扎实的深度学习和计算机理论基础,精通主流深度学习框架(如Tensorflow、Pytorch)
具备强悍的工程思维和代码能力,熟练使用Python/C++等编程语言

工作职责

方向一:个性化自进化与主动探索算法机制

探索与利用权衡:负责设计前沿的主动探索训练目标与触发机制,引入不确定性感知等机制,使Agent能够根据当前交互状态、上下文历史自主判断自适应进化方向
高价值信息捕获:在极低用户打扰的约束下,设计高效的主动追问与澄清策略,精准、主动地获取用户深层高价值偏好信息
方向二:多轮交互奖励建模与RL策略优化
长期价值奖励建模:负责构建面向长期交互与用户留存的奖励模型体系,将用户显式反馈(追问、点击)与隐式行为(停留、改写)转化为高置信度的显式/隐式奖励信号
强化学习策略对齐:运用先进的强化学习算法(如PPO、GRPO、在线/交互式RL),优化模型在多轮对话与AI搜索场景下的样本效率与收敛性
基于严谨的理论框架(如收敛性保证、遗憾界分析),指导算法的原则性设计,确保策略在复杂、长尾多场景迁移时的可解释性与可靠性
方向三:Agent闭环体系建设与全链路落地
可插拔个性化内化模块:研发高容量、强泛化性的个性化信息内化与记忆模块,动态攻克信息更新频率与偏好识别精度之间的权衡难题

优先资格

在ICLR/ICML/NIPS/ACL/CVPR等国际顶会有论文发表经历优先

优秀的分析、解决问题能力,对AGI的未来趋势与挑战有浓厚兴趣
对解决挑战性问题充满激情,较强的责任心、主动性和韧性,能良好的沟通协作

AI 洞察

优缺点分析

优点

  • 背靠美团核心业务,研究成果直接服务数亿用户,影响力巨大
  • 团队拥有多位北斗、博士,技术氛围浓厚,可快速学习前沿知识
  • 研究方向处于AI最前沿(Agent、RL、大模型),职业发展空间广阔
  • 扁平化管理,个人有机会主导关键模块,成长速度较快
  • 技术难度高,需要同时掌握强化学习、大模型和工程实现,学习曲线陡峭
  • 作为校招生,可能面临与经验丰富的同事竞争,需要快速证明自己
  • 适合对强化学习与大模型结合充满热情、具备扎实理论基础和工程能力、渴望在顶尖团队中快速成长的2027届优秀学子

缺点 / 挑战

  • 业务落地要求高,需在理论研究与实际效果之间取得平衡,压力较大

角色解读

  • 从研究员成长为算法专家,主导Agent在搜索推荐场景的核心技术突破
  • 向大模型全栈方向发展,覆盖数据、训练、部署、评测全链路
  • 未来可晋升为技术骨干或团队Leader,引领生成式智能在生活服务领域的落地
  • 设计主动探索与不确定性感知机制,使Agent能自主判断何时进化、如何获取用户深层偏好
  • 构建长期交互奖励模型,将用户显式/隐式反馈转化为高置信度奖励信号
  • 应用PPO、GRPO等强化学习算法优化多轮对话策略,并确保算法的理论收敛性与可解释性
  • 研发个性化记忆模块,平衡信息更新频率与偏好识别精度,推动Agent全链路落地
  • 扎实的深度学习和强化学习理论功底,熟悉PPO、GRPO等先进算法
  • 精通PyTorch或TensorFlow,具备大模型后训练实践经验
  • 优秀的工程能力,熟练使用Python/C++,能高效实现复杂算法
  • 具备探索精神,对不确定性建模、奖励设计、在线学习等方向有深入理解

申请策略

  • 深入了解美团搜索推荐业务场景,在面试中展示对技术落地的思考
  • 准备一个完整的项目案例,从问题定义、算法设计到实验效果,体现独立解决能力
  • 突出在大模型后训练、强化学习方面的项目或研究经历,包括使用的算法和框架
  • 展示顶会论文发表记录,特别是ICLR/ICML/NIPS等,直接加分
  • 强调工程能力,如用Python/C++实现的复杂系统或开源贡献
  • 描述与探索-利用、奖励建模相关的竞赛或课题,体现理论与实践结合
  • 建议提前熟悉PPO、GRPO等强化学习算法的手动实现,并理解其理论细节
  • 学习大模型微调技术(如LoRA、RLHF),掌握开源工具(如HuggingFace TRL)

面试指南

  • 对于算法原理问题,采用“核心思想+数学公式+优缺点”的结构,先给出直观解释,再补充技术细节
  • 对于设计问题,采用“问题分析-方案设计-评估方法”的逻辑,展示系统性思考
  • 对于项目经验问题,采用STAR法则(情境、任务、行动、结果),并突出你的独特贡献
  • 请解释PPO算法的核心思路,并说明它与传统策略梯度方法的区别
  • 如何设计一个奖励函数来平衡短期用户点击和长期留存?
  • 在探索与利用中,如何选择不确定性度量方法?举例说明
  • 你对大模型后训练(post-training)的理解是什么?当前有哪些主流范式?
  • 请描述你做过的一个强化学习项目,遇到的主要挑战是什么?如何解决的?

匹配度报告

65
综合匹配度

美团核心团队,大模型+强化学习前沿方向,技术成长极高,但需现场办公且工作节奏紧凑。

适合人群
最适合追求技术成长和前沿研究、愿意在快节奏中积累核心竞争力的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利60
成长发展90
工作生活40
使命价值70

薪资福利匹配

60中等

作为大厂校招,薪资有一定竞争力,但未明确披露具体范围,且校招岗位稳定性较好,但福利等未提及,补偿性动机满足程度中等。

薪资信号未披露(AI估算:20K-30K/月)

成长发展匹配

90较高

岗位处于大模型与强化学习的前沿,团队技术实力强,有论文发表机会,成长路径清晰,发展性动机满足度高。

技术前沿前沿/新兴技术
技术栈强化学习、大模型、PPO、GRPO、Agent、不确定性感知、PyTorch、TensorFlow
成长机会团队内有多位北斗、博士、个人成长快、创新型团队扁平化管理
业务类型profit_center

工作生活匹配

40较低

仅现场办公,未提及弹性工作或远程,北京地区通勤压力较大,加班情况不明,生活方式满足度较低。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

美团本地生活业务与用户日常生活紧密相关,AI赋能可提升数亿用户体验,具有一定的社会意义,但商业属性较强,使命感中等偏上。

行业发展稳定成熟行业
社会影响中性/一般
使命信号用AI能力重新定义下一代生活服务入口
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • 【北斗】基于大模型的搜索算法工程师

    美团 · 北京市
    AI 估算 · 6k-10k
  • 【北斗】广告大模型应用算法工程师-【多国多语言LLM-based 推搜广告】

    美团 · 北京市
    AI 估算 · 25k-35k
  • 市场营销实习生

    美团 · 北京市
    AI 估算 · 4k-6k
  • 【LongCat大模型人才校招】基础模型通用 agent 算法研究员

    美团 · 北京市
    AI 估算 · 20k-30k
  • 【北斗】AI决策算法研究员(外卖/即时零售方向)

    美团 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k

美团 的其他在招职位

  • 【北斗】基于大模型的搜索算法工程师

    美团 · 北京市
    AI 估算 · 6k-10k
  • 【北斗】广告大模型应用算法工程师-【多国多语言LLM-based 推搜广告】

    美团 · 北京市
    AI 估算 · 25k-35k
  • 市场营销实习生

    美团 · 北京市
    AI 估算 · 4k-6k
  • 【LongCat大模型人才校招】基础模型通用 agent 算法研究员

    美团 · 北京市
    AI 估算 · 20k-30k
  • 【北斗】AI决策算法研究员(外卖/即时零售方向)

    美团 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k