主动跟踪学术界与工业界在图像视频生成式模型、多模态理解模型、语音模型、多模态理解生成统一建模等方向的创新算法研究,攻克Diffusion模型加速、多模态理解模型、语音模型(ASR、TTS、Omini等)、多模态理解生成统一建模加速等技术方向,包括但不限于:(Attention量化/稀疏加速、蒸馏加速、量化、投机解码、剪枝、KV Cache 压缩等等)
通过分析模型和任务性能瓶颈,设计创新的算法优化方案,提升多模态大模型的推理效率,显著降低端到端延迟
作为算法与框架团队之间的技术桥梁,聚焦于图像理解、视频生成、音频理解生成、视觉多轮交互、实时对话等任务,提升模型在推理端的性能
高效协同框架开发及业务算法团队,确保技术方案落地
撰写高质量的技术文档与实验报告,并组织内部分享,推动团队整体技术认知提升