参与视觉-语言-动作 (VLA) 模型与具身世界模型相关算法研究,协助开展多模态建模、视频/动作生成、视觉表征学习、策略学习等方向的实验与迭代
参与核心模型模块研发,包括模型搭建、训练调优、实验分析与评测,支持算法在具身任务中的验证与优化
协助开展图像/视频编码器、离散/连续tokenizer、多模态融合等技术探索,支持世界模型训练链路建设
跟踪具身智能、多模态大模型、生成模型等前沿论文,进行复现、调研与方案对比,形成实验结论与技术洞察
与算法、数据、Infra团队协作,推动研究方案在真实训练环境中的落地验证