深度参与LLM大模型压缩加速方案研究,包括不限于:
投机采样:适配LLM模型架构特性,探索Prefill / RL等场景下优化加速方案
稀疏化:Sparse Attention,KV-Cache压缩,模型结构剪枝等优化技术,协同框架定制化稀疏方案,提升模型推理性能
量化:优化Transformer中 Linear/KV-Cache/Attention量化算法,适配FP8/INT8/NVFP4等量化方案及不同硬件后端
探索极低bit量化训练方案,深度协同硬件联合优化,实现模型体积极致压缩和性能突破,并推动实际业务落地
新技术:聚焦长上下文,多轮对话优化等压缩加速优化技术研究
设计可落地的大模型压缩算法及成本优化方案,助力大模型的性能加速,不限于模型结构/软硬协同优化
分析业务性能瓶颈和模型特点,定制化开发大模型压缩优化工具,实现一站式模型压缩-部署的高速推理方案
参与前沿的模型压缩加速算法研究,追踪领域前沿工作,撰写并发表顶会论文