美团的【LongCat实习】面向Agentic场景的语音交互大模型前沿研究薪资是多少？

该职位薪资范围为 5k–10k（人民币/月）。

【LongCat实习】面向Agentic场景的语音交互大模型前沿研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

美团的【LongCat实习】面向Agentic场景的语音交互大模型前沿研究有什么任职要求？

该职位要求本科学历及无经验要求工作经验。

美团

【LongCat实习】面向Agentic场景的语音交互大模型前沿研究

立即应聘

【LongCat实习】面向Agentic场景的语音交互大模型前沿研究

发布于大约 11 小时前

实习/见习

北京市

无经验要求

实习生

仅现场办公

本科

研究与开发 (研发)

PyTorch

强化学习

LLM

分布式训练

端到端

ASR

TTS

语音大模型

AI 估算 · 5k–10k

美团实习薪资在行业内具有竞争力，结合岗位前沿性和算力支持，月薪约5000-10000元

职位详情

关于这个职位

美团核心本地商业基础研发平台招聘语音交互大模型实习研究员，你将参与构建端到端语音原生大模型，并将其融入Agentic工作流，打造具备“边听、边想、边说、边做”能力的新一代语音智能体

研究方向包括语音-语言统一建模、实时全双工交互、语音驱动的Agent规划以及强化学习对齐

岗位提供千卡至万卡级算力支持，与顶尖研究员并肩工作

最低要求

本科及以上学历，计算机、人工智能、自动化、信号处理、数学等相关专业在读

在以下一个或多个领域有较深入的研究或实践经验：音频/语音大模型（Audio-LLM / Speech Language Models）、端到端语音对话系统、大语言模型（LLM）、Agent系统、语音识别/合成（ASR/TTS）、强化学习

熟悉Python，熟练使用PyTorch等深度学习框架，具备较强的工程实现能力，有大规模分布式训练或流式推理优化实践经验者优先

好奇心驱动，具备出色的问题分析与自主探索能力，能够在前沿不确定性较高的方向中持续推进

具有良好的沟通协作能力，对追求前沿技术有强烈热情，能够与团队融洽合作，快速试验想法

工作职责

端到端语音-语言统一建模与理解：摒弃传统的级联架构，探索将连续的音频流（包含语音、副语言特征、环境音）与离散的文本Token在统一的自回归/非自回归架构下进行联合建模，使Agent能够无损保留语音中的情绪、重音、语速等声学特征，并在极低延迟下实现跨模态的深度语义理解

实时全双工流式交互与动态响应：研究面向真实对话场景的流式输入输出机制，攻克语音智能体在自然对话中的“听觉注意力”问题，探索支持随时打断（Interruption）、智能插话（Backchanneling）、端点检测（VAD）与即时状态切换的底层模型架构，实现媲美真人的丝滑对话节奏

语音驱动的Agent规划与工具调用（Voice-to-Action）：探索如何将模糊、口语化、包含冗余信息的自然语音指令，直接转化为精准的Agent意图与工具调用（Tool Use/API Call）序列，研究语音模态下的长上下文记忆、多轮语音交互中的意图追踪，以及“边对话边执行任务”的并行处理能力

面向语音Agent的高效对齐与强化学习：探索适用于语音大模型的训练范式与对齐策略，包括但不限于：基于人类偏好的语音强化学习（RLHF for Audio）、语音交互轨迹的大规模构建、针对“对话自然度”与“任务完成率”的多目标奖励建模，以及基于环境反馈的语音Agent自进化机制

优先资格

在ICASSP、Interspeech、ACL、ICLR、NeurIPS、ICML等顶会发表过相关论文者优先

在有影响力的开源项目（如大模型、语音处理框架、Agent框架等）中做出过核心贡献者优先

有AudioLM、VALL-E、Qwen-Audio等语音/音频大模型相关研究经验，或有Voice Agent、Tool-use大模型实战经验者优先

AI 洞察

优缺点分析

优点

参与最前沿的语音Agent研究，技术方向处于AI浪潮核心，个人成长快
美团提供千卡至万卡级算力，实验条件优越，能快速迭代想法
与顶尖研究员和工程师共事，学习氛围浓厚，能接触工业界最佳实践
研究目标具有高不确定性，需要较强的自主探索能力，可能面临多次试错
语音大模型训练对计算资源需求极大，需要熟悉分布式系统调优
实习期间需要快速产出成果，工作强度可能较大

缺点 / 挑战

适合对语音AI和Agent技术有强烈热情、动手能力强、愿意接受挑战的硕士或博士在读生

角色解读

可从实习生转为正式研究员，参与核心语音大模型项目，积累工业界大规模训练和部署经验
在语音+Agent交叉领域深耕，成为语音交互智能体方向的专家
优秀成果可发表顶级会议论文，并有机会引领美团在语音AI领域的技术方向
你将从事端到端语音大模型的研发，专注于语音-语言统一建模，探索如何让模型直接理解包含情绪和语速的音频流
研究实时全双工交互机制，设计支持打断、插话和状态切换的流式对话系统
开发语音驱动的Agent规划能力，将口语化指令转化为精确的工具调用序列
探索面向语音Agent的强化学习对齐策略，优化对话自然度和任务完成率
扎实的深度学习基础，熟悉Python和PyTorch框架，具备大规模分布式训练经验
深入理解音频/语音大模型（如Audio-LLM、VALL-E）或语言大模型（LLM）原理
熟悉语音识别/合成（ASR/TTS）或端到端语音对话系统
具备自主探索和问题分析能力，能应对前沿研究的不确定性

申请策略

准备一份简洁的研究兴趣陈述，说明为何对该方向感兴趣以及自己的相关工作
关注美团在具身智能和语音AI的布局，在面试中展示对业务场景的理解
突出语音/音频或LLM相关的研究项目或论文，强调端到端建模或强化学习经验
展示工程能力：如使用PyTorch进行大规模训练、优化分布式训练pipeline的经历
若有开源贡献（如参与大模型、语音框架开发）务必列出
体现跨模态理解或Agent系统设计经验
补充语音领域基础知识，如MFCC、Wav2Vec、HuBERT等语音表征方法
强化对LLM和Agent框架（如LangChain、AutoGPT）的理解，动手实现简单Agent

面试指南

结构化回答：先阐述核心概念，再对比不同方法的优劣，最后结合JD中的具体方向给出自己的见解
STAR法则用于项目介绍：情境、任务、行动、结果，突出个人贡献和难点突破
对于设计类问题，从需求出发，列举可能方案，分析trade-off，给出推荐方案并说明理由
请详细解释端到端语音模型相比级联架构的优势和挑战
如何设计一个支持实时打断的语音交互系统？你会考虑哪些技术方案？
描述一个你过去的深度学习项目，包括模型架构、训练细节和实验结果
你对强化学习在语音Agent中的应用有什么看法？如何设计奖励函数？
在分布式训练中，如何优化通信效率并避免梯度爆炸？

职位点评

综合评分

前沿语音Agent研究，算力充沛，团队顶尖，但薪资一般且需现场办公。

更适合这类人

该职位最适合以技术成长和前沿探索为核心驱动力的求职者，尤其是愿意在实习期间投入高强度学习的研究型人才。

表现最好

成长发展

相对薄弱

薪资福利

薪资福利30

成长发展95

工作生活50

使命价值75

薪资福利

30较低

实习岗位薪资相对全职较低，但美团提供实习补贴和福利，整体属于行业中等水平。

薪资信号未披露（AI估算：5K-10K/月）

成长发展

95较高

该岗位处于AI最前沿的语音Agent方向，提供顶级算力支持和顶尖团队指导，技能成长空间极大。

技术前沿前沿/新兴技术

技术栈语音大模型、端到端、LLM、Agent、强化学习、分布式训练

成长机会与优秀人才同行、千卡至万卡级算力支持

业务类型profit_center

工作生活

50较低

北京现场办公，需要出勤。未明确提及WLB，但研究岗可能有一定弹性，工作强度可能较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

语音AI在提升人机交互效率方面具有重要社会价值，尤其Agent技术有望改变生活方式，但具体业务场景在本地生活，中性偏正向。

行业发展高速增长赛道

社会影响中性/一般

使命信号打造新一代语音智能体、推动AI走向真实世界数字伙伴

创新程度开拓性创新（行业首创）

Watch Jobs

美团

【LongCat实习】面向Agentic场景的语音交互大模型前沿研究

立即应聘

【LongCat实习】面向Agentic场景的语音交互大模型前沿研究

发布于大约 11 小时前

实习/见习

北京市

无经验要求

实习生

仅现场办公

本科

研究与开发 (研发)

PyTorch

强化学习

LLM

分布式训练

端到端

ASR

TTS

语音大模型

AI 估算 · 5k–10k

美团实习薪资在行业内具有竞争力，结合岗位前沿性和算力支持，月薪约5000-10000元

职位详情

关于这个职位

研究方向包括语音-语言统一建模、实时全双工交互、语音驱动的Agent规划以及强化学习对齐

岗位提供千卡至万卡级算力支持，与顶尖研究员并肩工作

最低要求

本科及以上学历，计算机、人工智能、自动化、信号处理、数学等相关专业在读

熟悉Python，熟练使用PyTorch等深度学习框架，具备较强的工程实现能力，有大规模分布式训练或流式推理优化实践经验者优先

好奇心驱动，具备出色的问题分析与自主探索能力，能够在前沿不确定性较高的方向中持续推进

具有良好的沟通协作能力，对追求前沿技术有强烈热情，能够与团队融洽合作，快速试验想法

工作职责

优先资格

在ICASSP、Interspeech、ACL、ICLR、NeurIPS、ICML等顶会发表过相关论文者优先

在有影响力的开源项目（如大模型、语音处理框架、Agent框架等）中做出过核心贡献者优先

有AudioLM、VALL-E、Qwen-Audio等语音/音频大模型相关研究经验，或有Voice Agent、Tool-use大模型实战经验者优先

AI 洞察

优缺点分析

优点

参与最前沿的语音Agent研究，技术方向处于AI浪潮核心，个人成长快
美团提供千卡至万卡级算力，实验条件优越，能快速迭代想法
与顶尖研究员和工程师共事，学习氛围浓厚，能接触工业界最佳实践
研究目标具有高不确定性，需要较强的自主探索能力，可能面临多次试错
语音大模型训练对计算资源需求极大，需要熟悉分布式系统调优
实习期间需要快速产出成果，工作强度可能较大

缺点 / 挑战

适合对语音AI和Agent技术有强烈热情、动手能力强、愿意接受挑战的硕士或博士在读生

角色解读

可从实习生转为正式研究员，参与核心语音大模型项目，积累工业界大规模训练和部署经验
在语音+Agent交叉领域深耕，成为语音交互智能体方向的专家
优秀成果可发表顶级会议论文，并有机会引领美团在语音AI领域的技术方向
你将从事端到端语音大模型的研发，专注于语音-语言统一建模，探索如何让模型直接理解包含情绪和语速的音频流
研究实时全双工交互机制，设计支持打断、插话和状态切换的流式对话系统
开发语音驱动的Agent规划能力，将口语化指令转化为精确的工具调用序列
探索面向语音Agent的强化学习对齐策略，优化对话自然度和任务完成率
扎实的深度学习基础，熟悉Python和PyTorch框架，具备大规模分布式训练经验
深入理解音频/语音大模型（如Audio-LLM、VALL-E）或语言大模型（LLM）原理
熟悉语音识别/合成（ASR/TTS）或端到端语音对话系统
具备自主探索和问题分析能力，能应对前沿研究的不确定性

申请策略

准备一份简洁的研究兴趣陈述，说明为何对该方向感兴趣以及自己的相关工作
关注美团在具身智能和语音AI的布局，在面试中展示对业务场景的理解
突出语音/音频或LLM相关的研究项目或论文，强调端到端建模或强化学习经验
展示工程能力：如使用PyTorch进行大规模训练、优化分布式训练pipeline的经历
若有开源贡献（如参与大模型、语音框架开发）务必列出
体现跨模态理解或Agent系统设计经验
补充语音领域基础知识，如MFCC、Wav2Vec、HuBERT等语音表征方法
强化对LLM和Agent框架（如LangChain、AutoGPT）的理解，动手实现简单Agent

面试指南

结构化回答：先阐述核心概念，再对比不同方法的优劣，最后结合JD中的具体方向给出自己的见解
STAR法则用于项目介绍：情境、任务、行动、结果，突出个人贡献和难点突破
对于设计类问题，从需求出发，列举可能方案，分析trade-off，给出推荐方案并说明理由
请详细解释端到端语音模型相比级联架构的优势和挑战
如何设计一个支持实时打断的语音交互系统？你会考虑哪些技术方案？
描述一个你过去的深度学习项目，包括模型架构、训练细节和实验结果
你对强化学习在语音Agent中的应用有什么看法？如何设计奖励函数？
在分布式训练中，如何优化通信效率并避免梯度爆炸？

职位点评

综合评分

前沿语音Agent研究，算力充沛，团队顶尖，但薪资一般且需现场办公。

更适合这类人

该职位最适合以技术成长和前沿探索为核心驱动力的求职者，尤其是愿意在实习期间投入高强度学习的研究型人才。

表现最好

成长发展

相对薄弱

薪资福利

薪资福利30

成长发展95

工作生活50

使命价值75

薪资福利

30较低

实习岗位薪资相对全职较低，但美团提供实习补贴和福利，整体属于行业中等水平。

薪资信号未披露（AI估算：5K-10K/月）

成长发展

95较高

该岗位处于AI最前沿的语音Agent方向，提供顶级算力支持和顶尖团队指导，技能成长空间极大。

技术前沿前沿/新兴技术

技术栈语音大模型、端到端、LLM、Agent、强化学习、分布式训练

成长机会与优秀人才同行、千卡至万卡级算力支持

业务类型profit_center

工作生活

50较低

北京现场办公，需要出勤。未明确提及WLB，但研究岗可能有一定弹性，工作强度可能较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

语音AI在提升人机交互效率方面具有重要社会价值，尤其Agent技术有望改变生活方式，但具体业务场景在本地生活，中性偏正向。

行业发展高速增长赛道

社会影响中性/一般

使命信号打造新一代语音智能体、推动AI走向真实世界数字伙伴

创新程度开拓性创新（行业首创）

Watch Jobs

【LongCat实习】面向Agentic场景的语音交互大模型前沿研究

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

【LongCat实习】面向Agentic场景的语音交互大模型前沿研究

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

美团 的其他在招职位

WMS高级产品经理

Keeta-代理商解决方案产品运营（Base巴西）

【医药健康】医美上游商业化产品运营

快乐猴供应链计划城市负责人

B端产品经理

相似职位推荐

化學實驗室-前處理人員(台北日班)

AI Standards & Ecosystem | Sr. Staff Engineer

具身智能算法实习生

游戏研发实习生（引擎方向）

图形学研究员实习生（动作生成方向）

美团 的其他在招职位

WMS高级产品经理

Keeta-代理商解决方案产品运营（Base巴西）

【医药健康】医美上游商业化产品运营

快乐猴供应链计划城市负责人

B端产品经理

相似职位推荐

化學實驗室-前處理人員(台北日班)

AI Standards & Ecosystem | Sr. Staff Engineer

具身智能算法实习生

游戏研发实习生（引擎方向）

图形学研究员实习生（动作生成方向）

美团的其他在招职位

美团的其他在招职位