多模态大模型基座:探索并不断突破多模态基座模型的能力上限
具体地,负责大模型相关技术前沿探索,包括但不限于融合模型架构探索、原生训练范式探索、高效训推框架探索等,不断提升模型的理解能力、生成质量、多样性、可控性等
负责不同规模、不同结构的多模态模型的数据准备和优化,构建多模态数据处理流程等
视频多模态能力提升:负责解决多模态视频大模型领域的前沿技术难题,如视频后训练、长视频时序理解、音视频等,探索短视频、长视频、视频流等不同形态的视频多模态方案,探究图像、视频统一的多模态解决方案
视觉基座表征能力提升:面向不同的多模态架构和训练范式,从视觉基座的角度深入探索视觉连续表征和离散表征的联系和区别,负责探索更具通用性的多模态视觉特征,生产行业内领先的视觉基座
多模态理解生成统一:负责多模态理解与生成的前沿探索与研究,包括但不限于视觉表征统一训练、多模态统一架构探索、理解与生成任务关系研究