参与全模态交互世界模型的研发和落地工作(实习生以发论文为主,正式员工技术研究落地为主),包括但不限于t2v/i2v/ti2va等基础模型模态研发(如videovae/audiovae/dit/vsr/pe/caption)、全模态交互视频生成和世界模型等
参与探索多模态大语言模型mllm如deepseek/qwen与世界模型相结合,如理解生成一体化,包括但不限于:全模态理解推理、多轮交互、rl后训练等
参与探索实时可交互全模态视频生成技术,包括但不限于moe/sparse attention模型架构设计,蒸馏加速,模型压缩,长视频生成,工程量化等
参与优化全模态数据管线,包括数据清洗/构建/scale up/线上数据回流分析等数据飞轮
参与制定全模态视频生成质量标准和评测体系,指导模型研发迭代,摸清跟竞品的水位
在顶会顶刊上发表研究成果和开源代码,提升团队在实时全模态交互世界模型领域的学术声望