岗位职责 简介:参与面向大模型训练/推理的高性能计算与系统优化工作,可根据个人背景和研究兴趣选择以下方向之一深入推进:
面向GPU/NPU 等多硬件平台的算子开发与极致性能优化(CUDA/Cutlass/TileLang)
跟踪前沿模型算法并完成高性能工程落地,深入框架层开展算子融合、内存/通信优化、流水编排等系统级性能调优
探索基于大模型的高性能 Kernel 自动合成技术,参考 LLM-driven Kernel Generation 范式,研究高效 GPU/NPU Kernel 的端到端自动生成与迭代优化方法
基于DSL(如 Triton、TVM TIR、Halide 等)的编译优化与自动调优技术研究
多硬件后端(NVIDIA/国产芯片)的统一算子库建设与迁移适配