针对 Hopper / Blackwell 架构进行 Kernel 开发与优化
基于 CUDA / PTX / Triton 设计和实现大模型训练中的核心算子 Kernel:
结合 Hopper / Blackwell 特性,在线程组织、访存路径、寄存器/共享内存使用、Tensor Core 调度等层面做深度优化
构建高性能训练算子库
针对 WeLM 模型结构进行算子设计与融合,降低 Kernel 调度和访存开销
参与 WeLM 内部高性能算子库的建设,与 PyTorch 及 cuBLAS、cuDNN、CUTLASS 等库进行集成或替换
Kernel 性能分析与瓶颈优化
使用 Nsight Compute / Nsight Systems / nvprof 等工具做 Kernel 级性能剖析
分析 SM 利用率、Tensor Core 利用率、访存带宽、指令吞吐、分支发散等指标,持续迭代 Kernel 实现
为上层训练框架提供关于 batch 设计、sequence length、并行策略等与性能相关的技术建议
前沿技术跟踪与工程落地
跟踪 GPU 新架构、新指令、新库(如最新 CUTLASS、NCCL 等)
学习业界优秀实现(Megatron-LM、DeepSpeed、Deepseek 等)的 Kernel/算子方案,并在 WeLM 体系内做工程化落地