深入洞察市场趋势和用户需求,结合技术发展趋势,面向应用场景,提升智能体全链路(PromptEngineering、SFT)的逻辑推理、任务规划等能力
定义“张大妈” Agent的核心能力、交互范式和应用场景(如:商品挑选,商品对比,评价总结等)
通过构建Agent、Multi-Agent的技术框架,将前沿技Agent能力快速应用到产品能力建设中,重点落地AI Agent的“大脑”(认知、决策、规划)和“手脚”(工具使用、行动执行)能力
探索如何构建稳健的评估方法,全面、客观、公正地评估模型的基础推理规划能力,以及和复杂环境的交互能力,提升“张大妈” Agent的对话质量和用户体验,驱动用户深度互动与留存
与算法团队的深度协作:
将抽象的产品目标和用户需求,转化为算法团队可理解、可执行的技术问题和模型优化目标
与算法工程师共同探讨技术可行性,参与技术方案评审,在模型能力、数据需求与产品体验之间找到最佳平衡点
指标共建: 共同制定衡量AI Agent性能的核心指标,不仅限于准确率、召回率,更包括任务完成率、步骤效率、干预频率、安全性等产品化指标
数据标注和模型管理:根据规划和需求,收集、标注训练和评估模型的数据,设定和共识好模型评估办法,对模型的准入准出做把控