主要负责多模态大模型在全模态(包括图像、视频、语音)的生成和理解、具身智能和GUI Agent等方向的模型能力分析和训练策略优化,并且对训练数据、训练策略和模型能力之间的关系进行研究分析,产出可行的模型评测方案和训练策略,具体工作内容包括但不限于:
追踪多模态大模型的前沿进展,积极学习新的模型结构、前沿模型认知,并进行深入分析
在具身智能方向中,探索VLA的data-scaling方案,指引VLM的关键能力提升
探索视频生成基座以及统一模型的潜力,包括但不限于世界模型训练和效果度量
积极探索VLA/VLM同环境交互的学习方法,涉及仿真和真机实验,研究通过强化学习的下一代智能提升的关键途径
在全模态统一生成理解方向中,研究达到理想态的关键演进路径并进行度量分析,指引长期有潜力的模型迭代方向
与各相关部门保持良好沟通,深度参与多模态模型的训练过程,共同推动多模态大模型持续优化