优化LLM推理框架:在vLLM、SGLang和PyTorch等LLM推理框架中为AMD GPU驱动性能改进,进行内部和上游贡献
LLM感知内核开发:设计和优化对LLM推理至关重要的GPU内核,包括注意力、GEMM、KV缓存操作、MoE组件和内存限制内核
大规模分布式LLM推理:设计、实现和调优多GPU和多节点推理策略,包括TP/PP/EP混合、连续批处理、KV缓存管理和解耦服务
模型-系统协同设计:与模型和框架团队合作,使LLM架构与硬件感知优化保持一致,提高实际推理效率
编译器与运行时优化:利用编译器技术(LLVM、ROCm、Triton、图编译器)改进内核融合、内存访问模式和端到端推理流水线
端到端推理流水线优化:优化完整的推理堆栈——从模型执行图和运行时到调度、批处理和部署
开源领导力:与开源维护者合作,将优化贡献到上游,影响路线图方向,并确保贡献的长期可持续性
工程卓越性:应用软件工程最佳实践,包括性能基准测试、测试、调试和大规模可维护性