美团的【基座大模型北斗实习】面向Agentic场景的语音交互大模型前沿研究薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【基座大模型北斗实习】面向Agentic场景的语音交互大模型前沿研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求本科学历及初级经验工作经验。

🤖 AI 估测：¥8K-15K

发布时间：22 天前

这是一个面向Agentic场景的语音交互大模型前沿研究实习岗位

你将参与构建端到端的语音原生大模型，并将其深度融入智能体工作流，目标是打造能够‘边听、边想、边说、边做’的新一代语音智能体

工作内容涉及端到端语音-语言统一建模、实时全双工交互、语音驱动的Agent规划与工具调用等前沿研究方向

具体地，我们关注如下研究方向：

端到端语音-语言统一建模与理解：摒弃传统的级联架构，探索将连续的音频流（包含语音、副语言特征、环境音）与离散的文本Token在统一的自回归/非自回归架构下进行联合建模

使Agent能够无损保留语音中的情绪、重音、语速等声学特征，并在极低延迟下实现跨模态的深度语义理解

实时全双工流式交互与动态响应：研究面向真实对话场景的流式输入输出机制，攻克语音智能体在自然对话中的‘听觉注意力’问题

探索支持随时打断（Interruption）、智能插话（Backchanneling）、端点检测（VAD）与即时状态切换的底层模型架构，实现媲美真人的丝滑对话节奏

语音驱动的Agent规划与工具调用（Voice-to-Action）：探索如何将模糊、口语化、包含冗余信息的自然语音指令，直接转化为精准的Agent意图与工具调用（Tool Use/API Call）序列

研究语音模态下的长上下文记忆、多轮语音交互中的意图追踪，以及‘边对话边执行任务’的并行处理能力

面向语音Agent的高效对齐与强化学习：探索适用于语音大模型的训练范式与对齐策略

包括但不限于：基于人类偏好的语音强化学习（RLHF for Audio）、语音交互轨迹的大规模构建、针对‘对话自然度’与‘任务完成率’的多目标奖励建模，以及基于环境反馈的语音Agent自进化机制

本科及以上学历，计算机、人工智能、自动化、信号处理、数学等相关专业在读

在以下一个或多个领域有较深入的研究或实践经验：音频/语音大模型（Audio-LLM / Speech Language Models）、端到端语音对话系统、大语言模型（LLM）、Agent系统、语音识别/合成（ASR/TTS）、强化学习

熟悉Python，熟练使用PyTorch等深度学习框架，具备较强的工程实现能力，有大规模分布式训练或流式推理优化实践经验者优先

好奇心驱动，具备出色的问题分析与自主探索能力，能够在前沿不确定性较高的方向中持续推进

具有良好的沟通协作能力，对追求前沿技术有强烈热情，能够与团队融洽合作，快速试验想法

在ICASSP、Interspeech、ACL、ICLR、NeurIPS、ICML等顶会发表过相关论文者优先

在有影响力的开源项目（如大模型、语音处理框架、Agent框架等）中做出过核心贡献者优先

有AudioLM、VALL-E、Qwen-Audio等语音/音频大模型相关研究经验，或有Voice Agent、Tool-use大模型实战经验者优先

【基座大模型北斗实习】面向Agentic场景的语音交互大模型前沿研究

🤖 AI 估测：¥8K-15K

发布时间：22 天前