数据闭环体系搭建与落地:负责自动驾驶算法业务全链路数据闭环体系设计与搭建,日均处理亿级传感器原始数据及标注数据,保障数据从采集、处理到模型训练、评测的端到端流转,支撑感知、决策规划等端到端模型的高效训练和数据采样
数据闭环工具链研发:①云端数据处理pipeline开发:针对标注数据、场景数据,设计并落地数据清洗(去噪、去重、异常过滤)、解析、切片、抽帧、送标(对接标注平台)的全流程自动化pipeline
②优化pipeline吞吐量与延迟,目标支撑日均10万+场景数据处理,服务算法团队数据生产需求
③推动工具链部署落地,解决线上运行故障(如数据阻塞、接口兼容问题),保障工具链可用性
高价值场景数据挖掘体系建设:①搭建“规则+大模型”双驱动的数据挖掘产线:针对规则挖掘,设计接入多种传感器、定位、感知、底盘、车身信号并优化规则策略
针对大模型挖掘任务,完成数据方案制定、模型微调、loss优化、模型评测等
②与算法团队协作迭代挖掘策略,提升 corner case 召回率