美团的Agent Research Intern（大模型智能体学习方向）薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

Agent Research Intern（大模型智能体学习方向）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求本科学历及无经验要求工作经验。

🤖 AI 估测：¥8K-15K

发布时间：25 天前

这是一个专注于大模型智能体（Agent）前沿研究的实习岗位

你将参与Agent后训练、在线学习、记忆机制、过程奖励模型等核心方向的研究，并负责搭建实验环境、复现前沿成果，最终产出高质量的技术报告或论文

适合希望在LLM Agent、强化学习、推理等方向深入发展的同学

参与面向 Agent 的大模型后训练新范式研究，包括但不限于：基于轨迹的后训练、面向工具使用与环境交互的策略优化、面向长时程任务的能力塑造等

参与 On-policy learning 与 Online learning 在智能体场景中的方法探索与系统落地，研究如何在真实或半真实环境中提升模型的持续交互、试错学习与在线改进能力

参与智能体记忆机制研究，包括长期记忆、工作记忆、情景记忆、可检索记忆与记忆治理等方向，探索记忆对长时程任务、多轮规划与复杂决策能力的作用

参与过程奖励模型（Process Reward Model, PRM）及相关可验证反馈机制研究，探索如何为 Agent 的中间步骤、行为轨迹与决策过程提供更细粒度、更稳定的学习信号

参与搭建和迭代 Agent 研究所需的实验范式，包括环境构建、数据生成、评测基准、自动化分析工具与训练基础设施，推动研究从想法验证走向稳定复现

跟进并复现学界与业界研究进展，围绕 Agent learning、RL for LLM、记忆、工具使用、可验证性等方向开展深入调研、实验与总结，形成高质量技术报告、研究原型或论文产出

计算机、人工智能、数学、统计学、电子信息或相关专业本科高年级、硕士或博士在读

具备扎实的机器学习基础，对以下至少一个方向有较深入理解：

大语言模型与后训练

强化学习 / Online learning / Bandit / Sequence decision making

Agent / Tool use / Planning / Reasoning

记忆增强模型 / RAG / 长上下文建模

Reward modeling / Preference learning / PRM / ORM

熟悉 Python，具备较强的工程实现能力，能够独立完成实验、调参与结果分析

熟悉 PyTorch，并具有一定的大模型训练或推理实践经验

具备较强的论文阅读、问题抽象与实验设计能力，能够围绕一个研究问题提出清晰假设、设计验证方案并推进落地

具备良好的沟通协作能力与研究主动性，能够在不确定性较高的前沿问题中快速学习、持续推进

Agent Research Intern（大模型智能体学习方向）

🤖 AI 估测：¥8K-15K

发布时间：25 天前