Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Meituan logo
美团
【北斗】大模型算法研究员(Agent/RL/推理)
立即应聘

【北斗】大模型算法研究员(Agent/RL/推理)

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
无经验要求
全职员工
仅现场办公
本科
研究与开发 (研发)
PyTorch
NeurIPS
LLM
JAX
SFT
RLHF
DPO
Grpo
Multi-Agent

AI 估算 · 25k–35k

美团北斗计划属于高端校招,面向顶尖硕博,薪资对标一线大厂,预计月薪25k-35k,15薪。

职位详情

关于这个职位

这是一份面向2027届优秀学生的美团北斗计划大模型算法研究员岗位,专注于Agent技术体系、LLM后训练算法、评测与数据体系建设

你将参与千万级并发场景下的真实业务落地,与顶尖团队合作探索前沿技术,并有机会发表顶会论文

最低要求

届计算机、数学、统计等相关专业在读或应届,本科及以上,博士/硕士优先

扎实的机器学习与深度学习基础,熟悉Transformer架构及其变体,具备独立阅读和复现顶会论文的能力
熟练掌握Python及PyTorch/JAX等主流框架,具备清晰的代码工程意识
对大模型的训练流程(预训练/后训练)或Agent构建有系统性理解,具备独立完成端到端实验的能力
具备RLHF/DPO/GRPO或其他对齐算法的实际训练与调优,对相关数据构建有深度认知

工作职责

方向一:Agent技术体系研究与落地

设计并构建面向真实业务场景的Agent技术体系,涵盖任务规划、工具调用、多轮推理、自我反思与纠错等核心模块
深入抽象业务核心问题,建立可量化的评估反馈信号,驱动Agent在复杂履约场景中实现可度量的效果提升
探索Multi-Agent协作框架,研究Agent在千万级并发场景下的可靠性、安全性与成本效率
方向二:LLM后训练算法研究
负责面向特定业务场景的指令精调(SFT)、偏好对齐(RLHF/DPO/GRPO等)全链路研究与工程落地
研究Scalable Oversight、持续学习、AI和环境反馈的强化学习(RLXF)等前沿方向
同时探索奖励模型与反馈机制、可泛化的细粒度过程监督和奖励建模等,提升模型在复杂推理与工具调用任务上的能力上限
主导训练数据的质量工程,包括数据清洗、合成数据构建及标注流程设计
垂域模型定制化构建,领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向
方向三:评测与数据体系建设
设计覆盖Agent行为、模型能力、业务指标的多维评测体系,建立自动化的诊断与归因链路
与业务团队深度协作,构建端到端的训练-评估-迭代闭环,将研究成果转化为线上可量化的业务收益
方向四:前沿跟踪与对外输出
持续追踪NeurIPS/ICML/ICLR/ACL等顶会最新进展,具备将前沿论文快速工程化落地的能力
鼓励将内部研究成果整理为学术论文,向行业输出技术影响力

优先资格

熟悉ClaudeCode、OpenClaw、Hermes等开源Harness的设计和实现

在NeurIPS/ICML/ICLR/ACL/EMNLP等顶会发表过论文(含在投),或有被广泛引用的开源项目
有Agent系统(如ReAct/Toolformer/CodeAct类)的研究或工程经验,理解Agent失败模式与评估瓶颈
参与过千卡以上规模分布式训练,或对推理优化(量化、投机解码等)有动手经验
ACM-ICPC/Kaggle/算法竞赛获奖,展示出优秀的算法直觉与问题拆解能力
具有跨学科视野,能将运筹优化、时空感知等方法引入LLM Post-Training体系

AI 洞察

优缺点分析

优点

  • 真实业务场景:千万级日订单、百万级骑手,提供业界罕见的Agent大规模落地环境,研究成果能直接产生业务价值
  • 资源保障:充足的GPU集群支持千卡规模实验,让想法快速验证
  • 学术导向:团队鼓励发表顶会论文,有完善学术合作通道和高密度研究氛围
  • 团队实力强:曾获美团技术突破奖,与多所顶尖高校保持联合研究,成长速度快
  • 技术难度高:涉及LLM后训练、Agent、Multi-Agent等前沿方向,需要持续学习与突破
  • 工作强度可能较大:属于研究与工程并重,需要快速迭代和解决复杂问题
  • 竞争激烈:面向顶尖学生,面试和工作中都需要高水平表现

缺点 / 挑战

  • 适合对LLM和Agent有浓厚兴趣、愿意挑战技术难题、希望在真实场景中实践并发表高质量论文的顶尖硕博学生

角色解读

  • 在美团北斗计划中快速成长为LLM/Agent领域的专家,主导核心算法方向
  • 有机会发表顶会论文,建立学术影响力,成为行业技术领袖
  • 未来可向技术专家(P序列)或技术管理(M序列)发展,参与更宏大的技术战略
  • 设计并构建面向真实业务场景的Agent技术体系,包括任务规划、工具调用、多轮推理等核心模块
  • 负责LLM后训练算法全链路研究,包括指令精调(SFT)、偏好对齐(RLHF/DPO/GRPO)等
  • 搭建多维评测体系,与业务团队协作形成训练-评估-迭代闭环
  • 持续跟踪NeurIPS等顶会进展,推动前沿论文工程化落地并鼓励发表学术论文
  • 扎实的机器学习与深度学习基础,熟悉Transformer架构及其变体
  • 熟练掌握Python及PyTorch/JAX等主流框架,具备清晰的代码工程意识
  • 对大模型训练流程或Agent构建有系统性理解,能独立完成端到端实验
  • 具备RLHF/DPO/GRPO等对齐算法的实际训练与调优经验

申请策略

  • 深入了解美团本地生活业务场景,思考Agent和LLM如何赋能履约技术平台
  • 准备一个完整的端到端实验案例,展示从问题定义、数据构建到模型训练和评估的闭环
  • 重点突出大模型相关项目经验,如参与过预训练、SFT、RLHF等全流程
  • 展示代码工程能力:GitHub开源项目、参与过大规模分布式训练
  • 如有顶会论文(在投或发表)或算法竞赛获奖,务必列出
  • 强调Agent系统构建经验,如ReAct、Toolformer等
  • 补充RLHF/DPO/GRPO等对齐算法的动手实践
  • 熟悉主流开源Agent框架如LangChain、AutoGPT等

面试指南

  • 针对项目类问题,采用STAR法则:情境、任务、行动、结果,突出技术难点和你的贡献
  • 对于算法原理类问题,先给出数学定义,再解释直觉,最后对比不同方法的优劣
  • 对于开放设计类问题,首先明确约束条件,然后提出方案框架,讨论trade-off
  • 请详细描述你做过的一个LLM微调项目,包括数据构建、模型选择、训练策略和评估指标
  • 如何设计一个Agent系统使其在复杂环境中能够可靠地完成任务规划与工具调用?
  • 解释RLHF的原理,并比较DPO和GRPO的优缺点
  • 你如何看待Multi-Agent协作中的安全性与成本效率问题?
  • 请详细讲述你熟悉的一个Transformer变体及其在LLM中的应用

匹配度报告

75
综合匹配度

美团北斗计划,前沿AI研究方向,真实场景与充足资源,成长性极强但WLB一般。

适合人群
最适合追求技术成长、渴望在AI前沿领域快速积累经验和成果的求职者,对WLB要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展95
工作生活50
使命价值80

薪资福利匹配

75中等

薪资属于顶尖校招水平,但未明确福利细节,稳定性因美团上市公司而较好。

薪资信号未披露(AI估算:25K-35K/月)

成长发展匹配

95较高

该职位处于AI前沿,提供真实业务场景和充足算力,鼓励学术发表,成长空间极大。

技术前沿前沿/新兴技术
技术栈LLM、Agent、RLHF、DPO、GRPO、SFT、Multi-Agent、Transformer、PyTorch、JAX
成长机会论文发表、学术合作、前沿追踪、技术影响力
业务类型profit_center

工作生活匹配

50较低

工作地点在北京,未明确WLB,但互联网大厂研究岗位工作强度通常较高。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

80较高

服务于美团本地生活,改善数亿人配送体验,社会价值明显,且行业处于高速增长期。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号服务10亿用户、市场首选、社会认可
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • 【北斗】基于大模型的搜索算法工程师

    美团 · 北京市
    AI 估算 · 6k-10k
  • 【北斗】广告大模型应用算法工程师-【多国多语言LLM-based 推搜广告】

    美团 · 北京市
    AI 估算 · 25k-35k
  • 市场营销实习生

    美团 · 北京市
    AI 估算 · 4k-6k
  • 【LongCat大模型人才校招】基础模型通用 agent 算法研究员

    美团 · 北京市
    AI 估算 · 20k-30k
  • 【北斗】AI决策算法研究员(外卖/即时零售方向)

    美团 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k

美团 的其他在招职位

  • 【北斗】基于大模型的搜索算法工程师

    美团 · 北京市
    AI 估算 · 6k-10k
  • 【北斗】广告大模型应用算法工程师-【多国多语言LLM-based 推搜广告】

    美团 · 北京市
    AI 估算 · 25k-35k
  • 市场营销实习生

    美团 · 北京市
    AI 估算 · 4k-6k
  • 【LongCat大模型人才校招】基础模型通用 agent 算法研究员

    美团 · 北京市
    AI 估算 · 20k-30k
  • 【北斗】AI决策算法研究员(外卖/即时零售方向)

    美团 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k