负责VLM Agent核心能力研发,包括但不限于多模态理解(图像/视频+文本)、指令遵循、自主规划、工具调用、记忆机制设计,实现Agent在特定场景的端到端自主决策与执行能力
参与VLM模型的微调、适配与优化,结合Agent业务场景需求,提升模型的需求理解、工具使用和推理总结能力,提升跨模态交互流畅度和视觉理解精度等
负责 VLM 基础模型能力的边界探索,研究基于强化学习的视觉推理增强技术,优化模型架构与推理策略,持续提升模型在细粒度视觉感知、复杂 UI 理解与跨模态逻辑对齐等高难度任务上的表现,探索 VLM 的 Scaling Law 新路径
结合业务场景,梳理Agent应用需求,推动VLM Agent从原型验证到产品化落地,迭代优化产品体验
跟进VLM与AI Agent领域前沿技术(如复杂任务规划、Think with images、RL 等),开展技术预研与创新,将前沿技术转化为实际业务价值