具体地,我们关注如下研究方向:
具身大模型感知与决策:探索构建端到端(End-to-End)的Vision-Language-Action(VLA)大模型
研究如何将海量互联网多模态数据与机器人异构动作数据进行统一表征预训练,提升模型在开放场景下的零样本任务泛化能力,实现从高层逻辑推理到底层电机控制指令的平滑映射
物理世界模型与因果推理:研究基于生成式架构的物理世界模型,使机器人能够通过视频生成或状态预测“预判”行动后果
探索如何在大模型中建模物理定律(重力、摩擦、刚性/流体等),通过想象进行自监督学习和虚拟进化,解决物理实验数据稀缺与长尾场景模拟的难题
视觉语义导航与长程规划:针对大尺度、动态变化的未知环境,研究结合常识推理的视觉语言导航(VLN)技术
利用大语言模型的逻辑链(CoT)能力,将复杂的模糊指令分解为可执行的动作序列,解决具身智能在复杂物理空间中的定位、语义地图构建及长程任务中的意图保持问题
敏捷运动控制与精细操作:探索强化学习(RL)与大模型结合的全身协同控制方案
包括但不限于:人形机器人的复杂地形敏捷行走、基于触觉-视觉融合的多指灵巧手精细操作
研究如何通过Sim-to-Real技术将大规模仿真学习的策略高效迁移至真实硬件,实现丝滑的物理动作输出
具身人机交互与在线进化:构建自然的自然语言/手势交互界面,使机器人能理解人类的情境、反馈并进行修正
研究基于人类反馈的具身强化学习与示范学习,使智能体能够在与环境、人类互动的过程中实现技能的增量学习与自我迭代