美团的【大模型北斗实习】Operator 智能体方向算法研究薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【大模型北斗实习】Operator 智能体方向算法研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及初级经验工作经验。

🤖 AI 估测：¥8K-15K

发布时间：25 天前

这是一个专注于大模型与强化学习结合的算法研究实习岗位

你将研究如何让智能体（Agent）在多模态和复杂场景下具备更强的决策与执行能力，核心工作包括设计强化学习环境、优化决策策略以及结合大模型进行规划推理

这是一个能让你深入接触AI前沿技术（如OpenAI Operator、LLM+RL）的绝佳机会

主要研究内容包括但不限于：

1) 多模态与多步决策：设计并构建包含多模态信息、计算机交互、网络搜索、函数调用等多维度的复杂环境，研究如何利用端到端强化学习来进行多步决策，从而完成更具挑战的任务

2) 策略学习与优化：在多种强化学习算法（如 PPO、GRPO 等）的框架下，探索高效的策略优化方法，为 Operator Agent 提供强大的决策和执行能力

3) 规划与推理：借助大模型的知识与推理能力，设计可解释的多步规划算法

研究如何与外部工具或知识库交互，以扩展 Agent 的能力边界并提升其在真实环境中的自动化决策表现

1）熟悉强化学习领域常用算法及理论基础（如 DQN、Policy Gradient、PPO、GRPO 等

2）熟练掌握至少一门编程语言（如 Python、Java），熟悉 Linux 环境

3）具备深度学习框架（如 PyTorch、TensorFlow）实际项目经验

了解大模型或分布式训练框架（Megatron、DeepSpeed 等）者优先

4）对大模型在 Agent 规划、推理中的作用有浓厚兴趣，对 LLM + RL 的前沿研究有基本认识

5）具备良好的问题分析和解决能力，对新技术保持学习和探索的热情

加分项：

1）在 NeurIPS、ICLR、ICML、ACL、EMNLP 等相关领域高水平期刊/会议发表论文或在有影响力的开源项目中做出核心贡献

2）在多 Agent、层级强化学习或多模态融合等领域有深入研究或项目经验者优先

3）具备 General Agent 使用经验（如 OpenAI Operator、Manus AI 等）者优先

【大模型北斗实习】Operator 智能体方向算法研究

🤖 AI 估测：¥8K-15K

发布时间：25 天前