Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/美团/【大模型北斗实习】通用强化学习研究
Meituan logo
M
美团 (Meituan)

职位信息

北京市
无经验要求
实习生
仅现场办公
学历未注明
实习/见习

标签

强化学习大语言模型决策系统多智能体强化学习Reasoning分层强化学习贝叶斯强化学习
💡

核心评价

前沿AI研究实习,技术成长性极佳,薪资符合实习市场水平,需现场办公。

【大模型北斗实习】通用强化学习研究

🤖 AI 估测:¥8K-15K

发布时间:25 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大模型与强化学习前沿交叉领域的实习研究岗位
你将参与构建能够处理复杂决策任务的智能系统,核心工作包括设计多层次强化学习框架、探索推理技术以及研究强化学习的扩展规律
该职位适合对AI前沿技术充满热情,希望在顶级互联网公司获得实战研究经验的学生

✓工作职责

主要研究内容包括但不限于:
1)多层次强化学习设计:研究 Hierarchical RL 与 LLM 的结合方法,构建能够处理抽象策略与具体执行的多层次决策系统
探索如何将复杂的系统任务分解为可管理的子任务,并能找到准确稠密的反馈信号,构建 Local RM 和 Global RM,进而完成可依赖和全局的优化
2)Reasoning 技术:针对不同的任务,能对 Reasoning 过程的 Token Budget、Reasoning 路径等,有稳定可控的方式,且能实现任务自适应
3)RL & Reasoning Scaling Law:探索高效的 RL Scaling 技术和 Test Time Scaling 技术,不断提升模型能力,且能兼顾探索利用和 Compute Cost

⭐最低要求

1)计算机科学、人工智能、机器学习或相关专业背景
2)熟练掌握 Python,具备高效实现和优化强化学习算法的能力
3)扎实的强化学习理论基础,熟悉分层强化学习、多智能体强化学习、贝叶斯强化学习等高级算法框架
4)熟悉 LLM 及其与 RL 结合的前沿技术
5)熟悉 Reasoning 相关技术

👍优先资格

加分项:
1)在NeurIPS、ICLR、ICML等顶级会议发表过 RL 或决策系统相关论文
2)参与过大规模 RL 系统的实际部署,并解决过生产环境中的稳定性和效率问题
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • 招聘负责人

    美团

    上海市 · 仅现场办公

  • Operations Data Analyst Intern

    美团

    北京市 · 仅现场办公

  • 广州经营主管

    美团

    佛山市 · 仅现场办公

  • 核心本地商业招聘经理-上海

    美团

    上海市 · 仅现场办公

  • 生产主管

    美团

    广州市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公