研发长尾场景自动挖掘与聚类算法:从PB级多模态路测数据(Camera/LiDAR/Radar/GNSS)中,发现、归类并优先处理高风险或低频但关键的驾驶情境
构建跨域数据适配与迁移学习框架:针对海外不同国家/地区的道路规则、车辆类型、交通参与者行为差异,设计数据重加权、特征对齐或域自适应策略,提升模型跨区域泛化能力
探索大模型驱动的数据生成与增强技术:结合扩散模型(Diffusion)、视觉语言模型(VLM)或世界模型(World Model),合成高保真、语义可控的仿真数据,补足真实数据盲区
开发自动化标注与弱监督学习算法:利用模型自标注、多传感器一致性校验、时序约束等手段,降低人工标注成本,提升标注质量与覆盖度
与后端、车端、仿真及算法团队深度协同,将数据洞察转化为可执行的训练任务,推动“数据→模型→部署→新数据”的高效闭环,支撑业务在全球多地快速落地