参与快手kling多模态视频生成的研发和落地工作(实习生以发论文为主),包括但不限于: t2v,i2v等基础模型研发、多模态可控视频生成编辑、世界模型等
探索将多模态大语言模型mllm如deepseek/qwen相关技术与视频生成相结合,包括但不限于:提升kling视频生成的多模态理解、推理、多轮交互能力等
探索将语音和视频生成相结合,包括但不限于:语音驱动的视频生成,有声视频等
探索实时可拓展的多模态视频生成技术,提升多模态视频生成的质量和效率等
在顶会顶刊上发表研究成果和开源代码,提升团队在多模态视频生成等领域的学术声望