研发端到端全模态理解和推理大模型核心技术,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流
研发视觉理解和推理大模型核心技术,在图像理解,视频理解,视觉推理能力增强(关系推理、因果推理、常识推理),GUI屏幕感知和推理、端到端图像翻译等方向创新突破,达到业内一流
优化语音识别大模型的上下文感知能力,通过送入交互历史信息提升语音识别准确率
优化语音识别大模型的热词感知能力,通过送入相关热词提升语音识别准确率
优化语音多模态理解大模型的SpeechEncoder,提升语音理解大模型的语音理解能力和声音理解能力,包括语音内容、情感、性别、声音事件、音乐风格等
在用户跟智能体对话的过程中,检测用户的表达完整性,从而加快系统响应速度且不带来更多的误截断
在语音对话模型中,检测用户交互的对象,从而提升打断的有效性和系统交互的响应速度
端到端全模态理解和推理、视觉理解、语音理解等,建立比较广泛的业界影响力,论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等
端到端全模态理解和推理、视觉理解、语音理解等,落地在小米核心业务场景,提升核心产品竞争力和用户智能体验,包括手机(OS/小爱)、汽车、生态链等