美团的Agent Researcher（大模型智能体学习方向）薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

Agent Researcher（大模型智能体学习方向）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求硕士学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：25 天前

这是一个专注于大模型智能体（Agent）前沿研究的岗位

你将负责探索Agent在复杂环境中的学习、规划、决策与执行能力，涉及后训练、在线学习、记忆机制、过程监督等核心方向

工作内容包括从研究方案设计、实验验证到推动成果落地，最终目标是构建更智能、更可控的AI智能体

负责面向 Agent 的大模型后训练新范式研究与落地，围绕智能体在复杂环境中的规划、决策、工具使用与长时程任务执行能力，探索具备实际效果的新方法

负责 On-policy learning、Online learning 在 Agent 场景中的方法设计、实验验证与系统化推进，研究如何让模型在交互环境中实现持续试错、自我改进与稳定提升

负责智能体记忆机制相关研究，包括长期记忆、工作记忆、情景记忆、可检索记忆、记忆治理与记忆利用策略，提升模型在复杂任务、多轮交互与跨轮目标一致性上的表现

负责过程奖励模型（PRM）、过程监督、轨迹级反馈建模及相关可验证学习信号的研究，提升模型在中间推理步骤、行为序列与决策过程上的可优化性与可控性

推动 Agent 研究所需的数据、环境、评测与训练基础设施建设，包括但不限于交互环境设计、自动化数据构造、可验证评估、实验分析工具链与训练范式迭代

跟踪学界与业界前沿进展，围绕 Agent learning、RL for LLM、过程监督、记忆、环境可验证性等方向开展系统调研，形成高质量研究方案，并推动论文、技术报告、原型系统或核心能力建设

与模型、数据、系统、应用等相关团队协作，将研究成果沉淀为可复用的方法论与能力模块，支持更大规模的 Agent 能力演进

计算机、人工智能、数学、统计学、电子信息或相关专业硕士及以上学历，博士优先

在以下至少一个方向具备扎实研究基础与项目经验：

大语言模型后训练

强化学习、Online learning、On-policy learning、序列决策

Agent、工具调用、规划与执行

记忆增强模型、RAG、长上下文建模

奖励建模、偏好学习、过程奖励模型、过程监督

熟练掌握 Python 与 PyTorch，具备较强的实验设计、工程实现与结果分析能力，能够独立完成从问题定义、方法实现到实验验证的完整研究闭环

对大模型训练或后训练流程有较深入理解，熟悉数据构建、训练优化、评测分析等关键环节，能够从研究问题出发推动方法落地

具备较强的论文阅读、问题抽象与研究推进能力，能够从复杂现象中提炼关键问题，并设计严谨、可复现的验证路径

具备良好的协作与沟通能力，能够在高不确定性的前沿研究中保持判断力、执行力与持续推进能力

Agent Researcher（大模型智能体学习方向）

🤖 AI 估测：¥35K-60K

发布时间：25 天前