高性能内核开发:为AI/ML工作负载设计、实现和优化高性能GPU内核,以最大化硬件利用率
性能优化:分析和优化内核执行的延迟和吞吐量,解决内存带宽、指令延迟和线程分歧方面的瓶颈
工作负载分析:评估单个内核对全栈AI模型的端到端性能影响,确保微优化能转化为应用级的速度提升
性能剖析与调优:使用高级GPU剖析工具(如ROCm Profiler、PyTorch Profiler)识别性能瓶颈、流水线停顿和内存层次结构效率低下问题
架构适配:调整实现策略以利用现代GPU架构的特定功能(例如矩阵核心、HBM特性)
框架集成:与软件栈团队协作,在高级框架和推理引擎中暴露优化后的内核