构建多模态大模型安全体系:参与构建多模态大模型(VLM)在图片、视频理解场景下的内容安全能力,包括图文输入安全过滤、输出内容合规审核、回复干预等多层安全机制
建设多模态安全数据与评估标准:围绕图片/视频内容安全需求,设计、收集并构建高质量的视觉安全评测数据集和训练语料集
从安全视角设计模型评估维度和评测方案,测评多模态模型在内容安全方向的能力边界,反馈评估结果,与研究团队共同推进模型的安全性能
创造性对抗:针对多模态大模型创造性的构建各种安全对抗情景,发挥想象力提前构想可能的攻击,帮助模型防患于未然