负责视觉生成基座模型及应用的整体研发工作,面向图像生成、视频生成及音视频生成等全模态生成场景,构建行业先进的通用视觉生成能力
主要工作包括但不限于:
视觉全模态生成基座模型:设计和优化适用于图像、视频、音视频等多模态场景的统一生成基座模型架构
开展多模态、多任务联合训练与对齐(如图文、视听、动作等),提升模型的通用性与泛化能力
针对不同应用场景(如图像视频内容生成与编辑等)进行模型能力扩展与定制化优化
高效图像/视频Autoencoder与Tokenizer:研发高效压缩比、低失真度的图像/视频Autoencoder、Tokenizer 等表征模型,支持大规模训练与高吞吐推理
探索适用于长视频、多视角视频等场景的结构化表征方式(如时空Token、分层编码等),平衡压缩率与生成质量
高效生成与下一代生成架构探索:研究和实现高效的生成范式,包括但不限于扩散模型、自回归模型等,并在大规模数据与大模型场景下优化训练与推理效率
探索稀疏架构、MoE(Mixture-of-Experts)等新型大模型结构,提高模型参数利用率与可扩展性
针对不同延迟与成本要求,设计分级推理与加速方案(如多阶段生成、粗到细生成、裁剪与蒸馏等)
面向世界模型(World Model)的长视频与实时生成:探索对复杂时空动态、因果关系与交互逻辑的建模方法,支撑长时长视频、连续场景生成
研发支持长视频叙事、一致角色与连贯环境的生成技术,解决长时依赖建模、记忆与控制等难题
构建低延迟、高稳定性的实时生成方案,支持交互式生成、实时驱动内容(如游戏、虚拟人、直播增强等)应用