小红书的Hi Lab-【Ace顶尖实习生】全模态实时交互大模型研究（语音方向）薪资是多少？

该职位薪资范围为 6k–12k（人民币/月）。

Hi Lab-【Ace顶尖实习生】全模态实时交互大模型研究（语音方向）的工作地点在哪里？

该职位工作地点位于上海市、北京市、杭州市。工作形式为仅现场办公。

该职位要求本科学历及无经验要求工作经验。

🤖 AI 估测：¥6K-12K

发布时间：29 天前

这是一个专注于全模态实时交互大模型研究的实习岗位，方向为语音

你将参与设计并验证一种融合视觉、语音流、思考模态与SOTA LLM的实时交互架构，旨在解决现有模型在实时对话中的延迟、打断等问题，目标是实现即时、流畅且富有智慧的多模态自然语音对话

工作职责尽管当前的多模态大模型（融合视觉、语音、文本）已展现出强大的感知与理解潜力，但是在实时交互场景中，由于模型设计导致的高延迟、生硬的轮次状态、频繁的打断或被打断严重影响信息传递效率

同时多个模态无法实时融合也限制了多模态模型在语音交互场景下的深度应用

生成的交互内容有时显得冗长、缺乏提炼或智能不足，这些问题限制了用户与大模型实时交流的体验

本课题的目标是设计并验证一种全模态实时交互的大模型架构，将视觉模态、语音流模态、思考模态信息以及 SOTA LLM 进行实时融合

从而使得大模型可以与人进行即时、流畅、且深入浅出、富有智慧的多模态自然语音对话

不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先

优秀的代码能力、数据结构和基础算法功底，熟练掌握至少一门编程语言，包括但不限于Python等

良好的沟通协作能力，责任心强，积极主动，能和团队一起探索新技术，推进技术进步

有语音/视频等多模态大模型理解技术背景，或大规模模型训练实际项目经验者优先

在ICASSP/Interspeech/ASRU/TPAMI/CVPR/NeurIPS/ICCV/ICML/ICLR/ACL等顶级期刊会议上发表相关论文者优先

Hi Lab-【Ace顶尖实习生】全模态实时交互大模型研究（语音方向）

🤖 AI 估测：¥6K-12K

发布时间：29 天前