美团的【大模型北斗实习】通用强化学习研究薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【大模型北斗实习】通用强化学习研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及无经验要求工作经验。

🤖 AI 估测：¥8K-15K

发布时间：25 天前

这是一个专注于大模型与强化学习前沿交叉领域的实习研究岗位

你将参与构建能够处理复杂决策任务的智能系统，核心工作包括设计多层次强化学习框架、探索推理技术以及研究强化学习的扩展规律

该职位适合对AI前沿技术充满热情，希望在顶级互联网公司获得实战研究经验的学生

主要研究内容包括但不限于：

1）多层次强化学习设计：研究 Hierarchical RL 与 LLM 的结合方法，构建能够处理抽象策略与具体执行的多层次决策系统

探索如何将复杂的系统任务分解为可管理的子任务，并能找到准确稠密的反馈信号，构建 Local RM 和 Global RM，进而完成可依赖和全局的优化

2）Reasoning 技术：针对不同的任务，能对 Reasoning 过程的 Token Budget、Reasoning 路径等，有稳定可控的方式，且能实现任务自适应

3）RL & Reasoning Scaling Law：探索高效的 RL Scaling 技术和 Test Time Scaling 技术，不断提升模型能力，且能兼顾探索利用和 Compute Cost

1）计算机科学、人工智能、机器学习或相关专业背景

2）熟练掌握 Python，具备高效实现和优化强化学习算法的能力

3）扎实的强化学习理论基础，熟悉分层强化学习、多智能体强化学习、贝叶斯强化学习等高级算法框架

4）熟悉 LLM 及其与 RL 结合的前沿技术

5）熟悉 Reasoning 相关技术

加分项：

1）在NeurIPS、ICLR、ICML等顶级会议发表过 RL 或决策系统相关论文

2）参与过大规模 RL 系统的实际部署，并解决过生产环境中的稳定性和效率问题

【大模型北斗实习】通用强化学习研究

🤖 AI 估测：¥8K-15K

发布时间：25 天前