依托快手视频社区平台,构建最具影响力的多模态理解基座模型和开源生态
参与多模态大模型架构探索,包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等
参与高质量训练数据构建,包括从但不限于大规模混合模态预训练数据构建(探索多模态Scaling)、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发(包括OCR、Caption、Grounding等)
协助研发理解与生成统一大模型的基础架构,涵盖多模态输入和输出在内的建模,实现模型在理解与生成任务上的协同优化效果