美团的【基座大模型北斗实习】全模态Computer Use Agent前沿研究薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【基座大模型北斗实习】全模态Computer Use Agent前沿研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求本科学历及无经验要求工作经验。

🤖 AI 估测：¥8K-15K

发布时间：22 天前

这是一个专注于前沿人工智能研究的实习岗位

你将参与构建下一代全模态Computer Use Agent（CUA），致力于将视觉、听觉、文本等多模态感知能力与实时行动决策深度融合，让智能体能够在真实的数字环境（如桌面、移动端）中自主完成复杂任务

工作内容涉及多模态融合建模、长时序任务规划、实时流式感知以及高效强化学习范式的探索

具体地，我们关注如下研究方向：

全模态感知与GUI交互的统一建模：探索将视觉（屏幕截图、视频流）、听觉（语音指令、系统音频）、文本等多模态信号在统一架构下进行融合理解，使Agent能够基于多模态上下文进行精准的GUI元素定位、状态识别与操作决策，提升在复杂真实桌面/移动端环境下的任务完成能力

长时序跨应用任务规划与执行：研究Agent在跨小时级、多应用协同的长程数字任务中的持续意图保持、动态重规划与自主纠错能力，解决当前CUA在长交互链中出现的上下文丢失、计划漂移与误差累积问题，使Agent能够自主稳定地完成复杂的端到端工作流

实时流式感知与连续决策：从“处理静态截图”升级到“实时屏幕流+音频流”的连续感知模式，探索Agent在动态变化的数字环境中进行实时状态追踪与即时响应的能力，支撑直播监控、实时协作等需要持续交互的场景

全模态Agent的高效学习范式：探索面向全模态CUA场景的强化学习训练方法，包括但不限于：多模态环境下的奖励建模与过程奖励设计、GUI交互轨迹的大规模RL Scaling、基于环境反馈的自进化与持续学习机制，以及多模态推理与行动的联合优化策略

本科及以上学历，计算机、人工智能、自动化、数学等相关专业在读

在以下一个或多个领域有较深入的研究或实践经验：多模态大模型（MLLM）、强化学习（RL）、Agent系统、GUI Agent / Computer Use、视觉-语言模型、跨模态融合

熟悉Python，具备较强的工程实现能力，有大模型训练或推理实践经验者优先

好奇心驱动，具备出色的问题分析与自主探索能力，能够在前沿不确定性较高的方向中持续推进

具有良好的沟通协作能力，对追求前沿技术有强烈热情，能够与团队融洽合作，快速试验想法

加分项：

在ICLR/NeurIPS/ICML/ACL/CVPR等顶会发表论文者优先

有影响力的开源项目中做出过核心贡献者优先

有GUI Grounding、Screen Agent、Computer Use Agent、Browser Use/Web Agent等相关项目经验者优先

【基座大模型北斗实习】全模态Computer Use Agent前沿研究

🤖 AI 估测：¥8K-15K

发布时间：22 天前