核心引擎开发与优化:负责或深度参与基于国产异构计算芯片(如NPU/PPU等)的大模型训练/推理引擎的架构设计、开发与迭代,构建高性能、高稳定性的上层软件栈
大模型业务落地:将引擎能力应用于公司核心业务,主导或参与多模态、大语言模型等前沿AI模型在国产芯片上的训练、微调与推理部署,解决实际落地中的技术难题
极致性能调优:针对各类业务大模型,进行深度的推理调度策略优化和关键算子(Kernel)的性能剖析与极致优化,持续提升系统的吞吐量、降低延迟
生态合作与协同:作为技术接口人,与国产芯片原厂技术支持团队紧密合作,高效推进芯片驱动、基础软件栈的引入、问题排查与版本迭代,确保技术路线顺畅推进