收集并分析典型端侧AI应用场景(如拍照录像、Agent、LLM等)的神经网络模型
选取典型端侧AI应用场景进行系统级软硬件联合验证
设计轻量化、高能效的NPU微架构,确定计算单元、控制单元、片上缓存等模块的整体架构方案
构建指令集及控制机制,支持灵活的操作控制与资源调度
设计多任务调度机制,支持边缘推理任务的优先级分配与资源共享
【课题名称】 端侧高效推理NPU架构优化技术研究
【课题内容】
结合端侧设备的功耗、面积和实时性限制,探索轻量化、高能效的NPU微架构设计
针对常见深度学习算子(卷积、矩阵乘法、注意力机制等)进行硬件友好的重新设计与加速策略研究
优化片上存储结构(如SRAM/BRAM)以支持高效的数据调度和多任务并行处理
构建高效的DMA调度机制与片外内存访问控制策略,减少数据传输瓶颈
研究端侧NPU多任务协同下的推理调度策略,支持任务优先级、时间片切换等机制