负责具身智能场景下多模态(语音、视觉、文本、触觉等)交互算法的设计、开发与优化,重点解决多模态数据融合、语义理解、意图识别等核心问题
构建具身多模交互领域专用数据集,设计数据增强与清洗策略,支撑模型训练与迭代
深入分析用户需求与使用场景,设计自然流畅的交互逻辑(如多轮对话、情感识别及场景化服务)
与上下游团队紧密协作,明确多模态交互的产品需求与技术指标,制定算法迭代交付计划,跟进项目进度,解决开发过程中的技术难题
优化RAG技术体系(包括向量检索、ES检索及图数据库检索方案),提升语义理解与知识融合能力
了解并关注模型在云侧及端侧的工程化部署技术,优化模型结构,确保低延迟与高稳定性
持续跟踪行业动态、技术趋势,提出突破性技术方案并推动POC验证
负责多模态算法相关技术文档的撰写(包括设计文档、开发手册、测试报告等),沉淀技术资产