基于多模态大模型(如Qwen-VL、InternVL等)设计面向自动驾驶的语义理解架构,实现红绿灯状态识别、箭头灯语义解析、交通标志OCR与语义理解等任务的性能跃升
参与将现有基于CNN的传统感知模型向VLM架构迁移,通过知识蒸馏、高效微调等技术,在保持模型轻量化的同时大幅提升复杂场景(极端天气、遮挡、罕见标志)的识别准确率
构建基于VLM的自动化数据标注与质量验证 pipeline,利用大模型的零样本/少样本能力挖掘长尾Corner Case,建立“数据挖掘-模型迭代-线上验证”的闭环优化机制
探索将VLM语义理解能力与端到端驾驶系统融合,实现从像素级感知到高层语义推理的直接映射,提升决策规划的可解释性