研究方向一:多模态Agent
基于多模态数据的智能决策、任务自动化及人机协同,提升直播运营效率与效果
多Agent框架设计与系统研发
研究方向二:高表现力数字人生成驱动
语音精准唇形驱动
通过AIGC、人脸驱动等能力,形成人形交互的行业最优产品化方案
人体驱动技术
针对AI直播业务场景,适配最优的人体肢体驱动技术解决方案
端到端人形生成能力
打造从语音文本输入到完整数字人输出的跨模态生成架构,通过联合训练实现语音驱动表情、文本驱动肢体语言、情感驱动微动作的多维度协同控制
研究方向三:智能对话与多模态内容生成交互技术
多模态智能对话技术
基于业务数据,利用RAG、跨模态检索、大模型后训练等方式,打造高效的智能对话能力
多模态内容理解及生成技术
基于业务数据,利用多模态大模型、AIGC技术构建多模态交互的基础数据