直接与关键应用开发者合作,理解他们当前和未来要解决的问题
构建和优化核心并行算法与数据结构,通过库开发和直接贡献应用程序,利用GPU提供最有效的解决方案
这包括大型语言模型的训练和推理优化,为大型语言模型生态系统中的框架和开源项目(如Megatron、TRTLLM、SGLang、vLLM)做出贡献
与NVIDIA的架构、研究、库、工具和系统软件团队紧密合作,影响下一代架构、软件平台和编程模型的构建
这包括研究对应用程序性能和开发效率的影响,并将真实世界的开发者反馈转化为可操作的平台改进
参与高性能算子的深度优化,涉及但不限于GPU内核优化、指令级调优和编译器优化
这些优化将直接支持客户,或在社区的计算库和开源项目(如cuDNN、cuBLAS、CUTLASS以及DeepGEMM、FlashMLA、FlashAttention、Flashinfer等开源库)中进行协调
改进广泛分布式大型语言模型工作负载的通信
通过优化通信库(NCCL、NCCL GIN、NVSHMEM)并参与开源通信库(如DeepEP、NCCL EP),引领分布式训练和推理的进步
这需要深入研究互连拓扑(NVLINK)和网络协议(InfiniBand/RoCE),以设计高效的数据传输策略和计算-通信重叠方法