多模态 Agent 系统设计与优化:设计多步骤任务的任务分解与子任务调度策略,提升长链路任务的成功率与鲁棒性
针对多模态输入(图像、视频帧、文档截图、UI 截图等)建立统一的上下文管理机制
多模态Skills和Tools建设:主导多模态相关 Skills和Tools 的定义、设计与落地,涵盖图像描述、文档理解、视觉问答、OCR 增强、图表解析等核心能力
制定多模态 Skills和Tools 的接入规范与测试标准
支持第三方 Tool 的快速集成
多模态模型训练与能力迭代:负责面向 DuMate 场景的多模态模型训练、微调与对齐优化(SFT / RL 等)