浏览职位数据统计洞察报告探索企业定价

我的收藏免费试用登录注册

浏览职位数据统计洞察报告探索企业定价

我的收藏免费试用登录注册

多模态视频生成算法专家-【可灵团队】

🤖 AI 估测：¥45K-80K

发布时间：20 天前

ℹ️关于这个职位

该职位是快手可灵团队的多模态视频生成算法专家

你将深度参与Kling多模态视频生成模型的研发与落地，探索包括文本/图像到视频生成、多模态可控编辑、世界模型等前沿方向，并将多模态大语言模型、语音等技术与之结合，提升视频生成的质量、效率与交互能力

✓工作职责

参与快手Kling多模态视频生成的研发和落地工作，包括但不限于：t2v，i2v等基础模型研发、多模态可控视频生成编辑、世界模型等

探索将多模态大语言模型MLLM如DeepSeek/Qwen相关技术与视频生成相结合，包括但不限于：提升Kling视频生成的多模态理解、推理、多轮交互能力等

探索将语音和视频生成相结合，包括但不限于：语音驱动的视频生成，有声视频等

探索实时可拓展的多模态视频生成技术，提升多模态视频生成的质量和效率等

在顶会顶刊上发表研究成果和开源代码，提升团队在多模态视频生成等领域的学术声望

⭐最低要求

熟悉视频生成基础模型如SVD、Sora、Meta MovieGen、HunYun Video等

熟悉多模态大语言模型（DeepSeek/Qwen等）、多模态理解生成、世界模型优先

熟悉语音驱动视频生成、语音生成优先

有多模态大语言模型、图像/视频生成、3D生成大规模训练和数据清洗经验者优先

学习能力强、自驱、代码能力强、善于解决问题者优先

有一作顶会或顶刊论文发表经历或相关知名大模型开源项目者优先

👍优先资格

熟悉多模态大语言模型（DeepSeek/Qwen等）、多模态理解生成、世界模型优先

熟悉语音驱动视频生成、语音生成优先

有多模态大语言模型、图像/视频生成、3D生成大规模训练和数据清洗经验者优先

学习能力强、自驱、代码能力强、善于解决问题者优先

有一作顶会或顶刊论文发表经历或相关知名大模型开源项目者优先