负责具身大模型多模态数据体系建设,覆盖图像、视频、语言、图文交错、动作轨迹、机器人交互等数据类型,支撑模型训练、评测与迭代
设计并搭建大规模数据处理与生产管线,包括数据采集、清洗、标注、筛选、标准化、混合配比、质量评估与版本管理,保障数据全生命周期高效运转
面向预训练、持续训练、SFT、强化学习等不同阶段,制定适配的数据策略与处理方案,提升数据利用效率与训练效果
针对多模态具身大模型任务特点,解决跨模态对齐、时序一致性、动作标注、数据稀疏性与分布不均衡等问题,持续优化数据质量
联合数据平台、模型与机器人团队,建设自动化数据回放、质检、追溯与评测体系,形成可复用、可迭代的数据基础设施
跟踪多模态数据处理、自动标注与数据质量评估等方向的前沿技术,推动数据体系持续升级