具体地,我们关注如下研究方向:
端到端语音-语言统一建模与理解: 摒弃传统的级联架构,探索将连续的音频流(包含语音、副语言特征、环境音)与离散的文本Token在统一的自回归/非自回归架构下进行联合建模
使Agent能够无损保留语音中的情绪、重音、语速等声学特征,并在极低延迟下实现跨模态的深度语义理解
实时全双工流式交互与动态响应: 研究面向真实对话场景的流式输入输出机制,攻克语音智能体在自然对话中的‘听觉注意力’问题
探索支持随时打断(Interruption)、智能插话(Backchanneling)、端点检测(VAD)与即时状态切换的底层模型架构,实现媲美真人的丝滑对话节奏
语音驱动的Agent规划与工具调用(Voice-to-Action): 探索如何将模糊、口语化、包含冗余信息的自然语音指令,直接转化为精准的Agent意图与工具调用(Tool Use/API Call)序列
研究语音模态下的长上下文记忆、多轮语音交互中的意图追踪,以及‘边对话边执行任务’的并行处理能力
面向语音Agent的高效对齐与强化学习: 探索适用于语音大模型的训练范式与对齐策略
包括但不限于:基于人类偏好的语音强化学习(RLHF for Audio)、语音交互轨迹的大规模构建、针对‘对话自然度’与‘任务完成率’的多目标奖励建模,以及基于环境反馈的语音Agent自进化机制