Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Meituan logo
美团
【LongCat实习】面向Agentic场景的语音交互大模型前沿研究
立即应聘

【LongCat实习】面向Agentic场景的语音交互大模型前沿研究

发布于 大约 11 小时前

实习/见习

北京市
无经验要求
实习生
仅现场办公
本科
研究与开发 (研发)
PyTorch
强化学习
LLM
分布式训练
端到端
ASR
TTS
语音大模型

AI 估算 · 5k–10k

美团实习薪资在行业内具有竞争力,结合岗位前沿性和算力支持,月薪约5000-10000元

职位详情

关于这个职位

美团核心本地商业基础研发平台招聘语音交互大模型实习研究员,你将参与构建端到端语音原生大模型,并将其融入Agentic工作流,打造具备“边听、边想、边说、边做”能力的新一代语音智能体

研究方向包括语音-语言统一建模、实时全双工交互、语音驱动的Agent规划以及强化学习对齐
岗位提供千卡至万卡级算力支持,与顶尖研究员并肩工作

最低要求

本科及以上学历,计算机、人工智能、自动化、信号处理、数学等相关专业在读

在以下一个或多个领域有较深入的研究或实践经验:音频/语音大模型(Audio-LLM / Speech Language Models)、端到端语音对话系统、大语言模型(LLM)、Agent系统、语音识别/合成(ASR/TTS)、强化学习
熟悉Python,熟练使用PyTorch等深度学习框架,具备较强的工程实现能力,有大规模分布式训练或流式推理优化实践经验者优先
好奇心驱动,具备出色的问题分析与自主探索能力,能够在前沿不确定性较高的方向中持续推进
具有良好的沟通协作能力,对追求前沿技术有强烈热情,能够与团队融洽合作,快速试验想法

工作职责

端到端语音-语言统一建模与理解:摒弃传统的级联架构,探索将连续的音频流(包含语音、副语言特征、环境音)与离散的文本Token在统一的自回归/非自回归架构下进行联合建模,使Agent能够无损保留语音中的情绪、重音、语速等声学特征,并在极低延迟下实现跨模态的深度语义理解

实时全双工流式交互与动态响应:研究面向真实对话场景的流式输入输出机制,攻克语音智能体在自然对话中的“听觉注意力”问题,探索支持随时打断(Interruption)、智能插话(Backchanneling)、端点检测(VAD)与即时状态切换的底层模型架构,实现媲美真人的丝滑对话节奏
语音驱动的Agent规划与工具调用(Voice-to-Action):探索如何将模糊、口语化、包含冗余信息的自然语音指令,直接转化为精准的Agent意图与工具调用(Tool Use/API Call)序列,研究语音模态下的长上下文记忆、多轮语音交互中的意图追踪,以及“边对话边执行任务”的并行处理能力
面向语音Agent的高效对齐与强化学习:探索适用于语音大模型的训练范式与对齐策略,包括但不限于:基于人类偏好的语音强化学习(RLHF for Audio)、语音交互轨迹的大规模构建、针对“对话自然度”与“任务完成率”的多目标奖励建模,以及基于环境反馈的语音Agent自进化机制

优先资格

在ICASSP、Interspeech、ACL、ICLR、NeurIPS、ICML等顶会发表过相关论文者优先

在有影响力的开源项目(如大模型、语音处理框架、Agent框架等)中做出过核心贡献者优先
有AudioLM、VALL-E、Qwen-Audio等语音/音频大模型相关研究经验,或有Voice Agent、Tool-use大模型实战经验者优先

AI 洞察

优缺点分析

优点

  • 参与最前沿的语音Agent研究,技术方向处于AI浪潮核心,个人成长快
  • 美团提供千卡至万卡级算力,实验条件优越,能快速迭代想法
  • 与顶尖研究员和工程师共事,学习氛围浓厚,能接触工业界最佳实践
  • 研究目标具有高不确定性,需要较强的自主探索能力,可能面临多次试错
  • 语音大模型训练对计算资源需求极大,需要熟悉分布式系统调优
  • 实习期间需要快速产出成果,工作强度可能较大

缺点 / 挑战

  • 适合对语音AI和Agent技术有强烈热情、动手能力强、愿意接受挑战的硕士或博士在读生

角色解读

  • 可从实习生转为正式研究员,参与核心语音大模型项目,积累工业界大规模训练和部署经验
  • 在语音+Agent交叉领域深耕,成为语音交互智能体方向的专家
  • 优秀成果可发表顶级会议论文,并有机会引领美团在语音AI领域的技术方向
  • 你将从事端到端语音大模型的研发,专注于语音-语言统一建模,探索如何让模型直接理解包含情绪和语速的音频流
  • 研究实时全双工交互机制,设计支持打断、插话和状态切换的流式对话系统
  • 开发语音驱动的Agent规划能力,将口语化指令转化为精确的工具调用序列
  • 探索面向语音Agent的强化学习对齐策略,优化对话自然度和任务完成率
  • 扎实的深度学习基础,熟悉Python和PyTorch框架,具备大规模分布式训练经验
  • 深入理解音频/语音大模型(如Audio-LLM、VALL-E)或语言大模型(LLM)原理
  • 熟悉语音识别/合成(ASR/TTS)或端到端语音对话系统
  • 具备自主探索和问题分析能力,能应对前沿研究的不确定性

申请策略

  • 准备一份简洁的研究兴趣陈述,说明为何对该方向感兴趣以及自己的相关工作
  • 关注美团在具身智能和语音AI的布局,在面试中展示对业务场景的理解
  • 突出语音/音频或LLM相关的研究项目或论文,强调端到端建模或强化学习经验
  • 展示工程能力:如使用PyTorch进行大规模训练、优化分布式训练pipeline的经历
  • 若有开源贡献(如参与大模型、语音框架开发)务必列出
  • 体现跨模态理解或Agent系统设计经验
  • 补充语音领域基础知识,如MFCC、Wav2Vec、HuBERT等语音表征方法
  • 强化对LLM和Agent框架(如LangChain、AutoGPT)的理解,动手实现简单Agent

面试指南

  • 结构化回答:先阐述核心概念,再对比不同方法的优劣,最后结合JD中的具体方向给出自己的见解
  • STAR法则用于项目介绍:情境、任务、行动、结果,突出个人贡献和难点突破
  • 对于设计类问题,从需求出发,列举可能方案,分析trade-off,给出推荐方案并说明理由
  • 请详细解释端到端语音模型相比级联架构的优势和挑战
  • 如何设计一个支持实时打断的语音交互系统?你会考虑哪些技术方案?
  • 描述一个你过去的深度学习项目,包括模型架构、训练细节和实验结果
  • 你对强化学习在语音Agent中的应用有什么看法?如何设计奖励函数?
  • 在分布式训练中,如何优化通信效率并避免梯度爆炸?

职位点评

62
综合评分

前沿语音Agent研究,算力充沛,团队顶尖,但薪资一般且需现场办公。

更适合这类人
该职位最适合以技术成长和前沿探索为核心驱动力的求职者,尤其是愿意在实习期间投入高强度学习的研究型人才。
表现最好
成长发展
相对薄弱
薪资福利
薪资福利30
成长发展95
工作生活50
使命价值75

薪资福利

30较低

实习岗位薪资相对全职较低,但美团提供实习补贴和福利,整体属于行业中等水平。

薪资信号未披露(AI估算:5K-10K/月)

成长发展

95较高

该岗位处于AI最前沿的语音Agent方向,提供顶级算力支持和顶尖团队指导,技能成长空间极大。

技术前沿前沿/新兴技术
技术栈语音大模型、端到端、LLM、Agent、强化学习、分布式训练
成长机会与优秀人才同行、千卡至万卡级算力支持
业务类型profit_center

工作生活

50较低

北京现场办公,需要出勤。未明确提及WLB,但研究岗可能有一定弹性,工作强度可能较高。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

75中等

语音AI在提升人机交互效率方面具有重要社会价值,尤其Agent技术有望改变生活方式,但具体业务场景在本地生活,中性偏正向。

行业发展高速增长赛道
社会影响中性/一般
使命信号打造新一代语音智能体、推动AI走向真实世界数字伙伴
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • WMS高级产品经理

    美团 · 北京市
    AI 估算 · 25k-40k
  • Keeta-代理商解决方案产品运营(Base巴西)

    美团 · 圣保罗
    AI 估算 · 20k-35k
  • 【医药健康】医美上游商业化产品运营

    美团 · 北京市
    AI 估算 · 25k-40k
  • 快乐猴供应链计划城市负责人

    美团 · 北京市
    AI 估算 · 35k-50k
  • B端产品经理

    美团 · 北京市
    AI 估算 · 25k-35k

相似职位推荐

  • 化學實驗室-前處理人員(台北日班)

    通标标准技术服务有限公司 · Xingzhen Village, New Taipei City, Taiwan
    AI 估算 · 6k-9k
  • AI Standards & Ecosystem | Sr. Staff Engineer

    高通 · 北京市
    AI 估算 · 60k-100k
  • 具身智能算法实习生

    网易 · 杭州市
    AI 估算 · 4k-8k
  • 游戏研发实习生(引擎方向)

    网易 · 上海市
    AI 估算 · 4k-6k
  • 图形学研究员实习生(动作生成方向)

    米哈游 · 上海市
    AI 估算 · 4k-8k

美团 的其他在招职位

  • WMS高级产品经理

    美团 · 北京市
    AI 估算 · 25k-40k
  • Keeta-代理商解决方案产品运营(Base巴西)

    美团 · 圣保罗
    AI 估算 · 20k-35k
  • 【医药健康】医美上游商业化产品运营

    美团 · 北京市
    AI 估算 · 25k-40k
  • 快乐猴供应链计划城市负责人

    美团 · 北京市
    AI 估算 · 35k-50k
  • B端产品经理

    美团 · 北京市
    AI 估算 · 25k-35k

相似职位推荐

  • 化學實驗室-前處理人員(台北日班)

    通标标准技术服务有限公司 · Xingzhen Village, New Taipei City, Taiwan
    AI 估算 · 6k-9k
  • AI Standards & Ecosystem | Sr. Staff Engineer

    高通 · 北京市
    AI 估算 · 60k-100k
  • 具身智能算法实习生

    网易 · 杭州市
    AI 估算 · 4k-8k
  • 游戏研发实习生(引擎方向)

    网易 · 上海市
    AI 估算 · 4k-6k
  • 图形学研究员实习生(动作生成方向)

    米哈游 · 上海市
    AI 估算 · 4k-8k