人工智能、计算机、模式识别等相关专业,本科及以上学历
扎实的理论基础和深厚的工程实践能力,在语音与视觉多模态融合、人像生成等方面有一定经验,深入理解数字人生成算法(如GAN、Diffusion、AR、3DMM等)及其在语音驱动视觉方向的应用
熟悉计算机视觉与图像处理技术,掌握面部表情识别与合成、动作捕捉与合成、3D人体姿态估计等相关技术,在talking head生成、人物动作生成、人物表情驱动等多个领域有深入研究
精通深度学习框架(如TensorFlow、PyTorch等),具备基于深度学习的语音与视觉多模态融合的开发经验