AI 编排与对话引擎设计 (AI Orchestration)
业务中枢构建:主导 ASR-LLM-TTS 全链路的流式业务编排,确保端云协同下的整体交互延迟(TTFT)处于行业领先水平
对话管理 (DM):设计并维护支持高并发的多轮对话状态机,处理复杂的上下文记忆、意图切换、任务中断与恢复逻辑
Agent 架构:构建基于 Agent 的任务规划系统,将模糊的语义请求转化为严谨的结构化指令(JSON),实现对车控、导航、媒体等 API 的精准调度
混合意图引擎与“快慢路径”设计 (Hybrid Intent Engine)
分流机制:设计“分类小模型(快路径)”与“LLM(慢路径)”的并行路由策略
针对高频车控指令实现毫秒级极速响应,无需等待大模型推理
置信度仲裁:建立一套完善的指令仲裁与回滚策略,解决小模型误识别与 LLM 幻觉之间的冲突
槽位提取优化:针对操作性指令设计轻量级的 NER(实体识别)与槽位填充能力,提升系统整体能效比
多模型路由与网关适配 (Model Gateway & Routing)
模型路由:构建统一的模型网关适配层,支持在多个外部 LLM 供应商(如 OpenAI, 文心, 千问等)与私有化模型之间进行动态切换与负载均衡
降级与容灾:设计业务层的服务降级预案,确保在云端模型故障或弱网环境下,基础车控功能依然 100% 可用
工程卓越性与数据闭环 (Engineering Excellence)
协议定义:与 Infra 团队协作,定义高效的端云通信协议(基于 gRPC/Protobuf),优化中间文本与音频流的传输效率
成本控制:通过语义缓存(Semantic Cache)、模型量化建议等手段,在大规模交互场景下显著降低 Token 消耗成本