工作职责 本课题希望探索有效的“多模态理解与生成”统一大模型基座方案,打破公司内部当前“模态隔离”与“任务隔离”的双重技术壁垒
目前在实际业务中,系统高度碎片化:一方面,我们维护着多套用于提取图文Embedding和标签的vlm理解类模型,以支持搜索和推荐的端到端建模
另一方面,我们独立部署了大量图像生成式大模型,包含用于社区封面生成、商品图修图、营销海报生成的图像生成模型(如基于Diffusion的文生图/图生图模型)
这种“理解与生成分离、文本与视觉割裂”的基建现状导致了极高的算力消耗、部署成本及维护代价
更关键的是,模型间存在“知识壁垒”——图像生成模型无法直接复用理解模型对业务商品逻辑的深刻认知,而推荐系统也无法享受到生成模型内部丰富的多模态精细化特征
因此,我们希望构建一套真正的多模态统一基座模型,实现输入端图文交错混合理解,输出端兼顾“高质量表征提取”、“文本生成”以及“图像生成”
通过底层世界知识的共享,实现降本增效,并利用多模态理解任务倒逼生成测能力的提升,产生图像生成能力增益效果