参与视觉生成与世界模型方向的前沿研究,可根据个人背景和研究兴趣选择以下方向之一深入推进:
高效率、低损失、高压缩比的图像视频 VAE 和 tokenizer 研究
统一生成模型的架构、训练与推理探索(稀疏架构、大尺寸 MoE、自回归生成等)
功能模型研究,包括参考生成、长视频生成、流式实时视频生成、音视频生成等
隐式世界模型、WorldActionModel 及 Action-conditioned WorldModel 的方法研究
世界模型在具身智能、实时交互等场景中的应用探索
其他你坚信路线正确的视觉生成与世界模型前沿方向