模型优化:主导LLM与多模态模型推理优化,落地INT4/INT8/FP8混合精度量化、稀疏化、Sparse Attention等稀疏注意力机制优化技术,精准平衡推理性能、模型精度与资源开销
构建标准化模型性能基准体系与全流程自动化调优和测试管线,支撑模型规模化高效部署
通信优化:聚焦AI框架跨节点/集群通信性能攻坚,深度优化RDMA/TCP协议栈传输机制、低延迟序列化方案与通信拓扑设计
适配国产高速网卡、智能交换机等硬件,通过流量调度、通信分组策略优化,突破分布式场景下的通信瓶颈,保障大规模集群通信稳定性与效率
计算优化:深耕Transformer核心算子、卷积、矩阵乘加(GEMM)等AI核心算子优化,基于Triton/MLIR编译框架实现算子融合、向量化执行与编译优化
适配GPU CUDA/ROCm及国产AI芯片(昇腾/寒武纪)专用指令集,最大化硬件算力利用率与算子计算效率
全链路协同优化:迭代框架层核心特性,落地投机采样(Speculative Decoding)算法优化,优化专家路由策略与负载均衡机制,设计计算-通信精细化调度与重叠(Overlap)等方案,提升MOE架构模型推理吞吐量,识别模型部署全链路关键瓶颈,实现集群级端到端推理效率跃迁