岗位职责 大模型推理是大模型应用的核心能力,是影响大模型应用成本和效率的关键因素
本课题专注于大模型推理加速与分布式系统优化的前沿技术探索,通过软硬件协同设计和算法工程联合优化,降低大模型推理的应用成本,提高推理性能
研究内容包括但不限于:
1)投机推理(Speculative Decoding),研究基于预测性执行的动态推理优化方法,参与设计低延迟推理框架,通过概率模型预生成候选序列以降低解码计算开销
2)分布式系统优化,探索多节点协同推理中的通信-计算负载均衡策略,提出基于异构硬件的混合并行调度方案,实现吞吐量提升
3)稀疏Transformer优化与模型压缩,通过稀疏Transformer优化以及模型压缩技术提升模型的计算效率
4)算子优化,熟悉最新硬件架构的算子优化方法,通过更高效的算子优化模型的吞吐和延时