数据飞轮构建:主导座舱多模态大模型(VLM/LLM)的数据飞轮架构设计,构建涵盖自动抓取、智能清洗、高质量合成(Synthetic Data)及自动化评估的全链路管线
数据策略研发:深度参与模型后训练(SFT/DPO)策略,通过数据实验挖掘“黄金样本”,解决座舱场景下语音、视觉、车辆信号等多模态对齐的疑难杂症
合成数据创新:探索利用大模型进行数据合成与增强(SDG),解决长尾场景(Corner Cases)数据稀缺问题,从源头提升模型的泛化能力
大规模算力优化:基于 Ray/Spark 等框架,优化万亿级 Token 的处理效率,挑战多模态超大规模数据的计算瓶颈
质量度量体系:建立数据与模型效果的强关联指标,通过自动化评测闭环,量化每一批次数据对模型“智商”的贡献