引擎调优:负责 Android/iOS、与云端 Mimo 或本地 ExecuTorch/ncnn 的底层接入与硬件加速(NPU/GPU/Metal)
效率突破:实现 Speculative Decoding (投机采样) 或 Prompt Caching,在手机端将 TTFT(首包延迟)降至极致
性能监控:建立全链路监控指标体系,关注 Tokens/sec、ITL (Token 间延迟) 以及 Agent 后台运行时的功耗曲线
资源调度:解决多 Agent 并发请求时的资源竞争问题,防止手机卡顿或发热降频