研究方向包括不限于:
1) 多模态表征高效对齐研究:研究如何在统一模型架构下提取并共享视觉、语音、语言等模态的特征
探索基于对比学习、自监督学习的方法,优化多模态对齐过程
针对视频、音频等数据,研究时间序列信息的对齐技巧
2) 多模态知识迁移与涌现能力研究:研究知识在不同模态间的迁移规律,激发模型在跨模态任务中的涌现能力,实现对未见任务的泛化
3) 多模态融合:探索统一的全模态大模型框架,研究高效全模态预训练技术,探索跨模态数据上的scaling law和智能涌现能力
使之能够高效处理文本、音频、图像和视频输入的任意组合,并生成涵盖文本、音频和图像等多种模态的输出
4) 实时多模态交互:探索高效的多模态智能交互技术,增强系统在多模场景下的智能,提升人机实时音视频交互体验