本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果
目前公司内部不同业务场景下存在多套Embedding&标签大模型,部署成本较高,且应用在下游端到端建模任务如序列推荐时也多有不便,希望在多场景下对多套不同的Embedding&标签做整合,共用一套统一的基座模型,降低部署成本
同时通过融合的方式,对多场景数据进行综合建模,提升多场景的Embedding&标签效果
统一基座模型需要解决的核心技术难点包括:
基座统一但仍可支持业务的定制微调,且训练成本和推理成本较低
多体裁内容(如笔记、直播、商品、Query等)的理解可以融合在一个统一模型,且效果比独立训练更好
研究方向会针对要解决的问题设立,包括:基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模