深度学习与LLM框架优化:为主要DL/LLM框架(TensorFlow, PyTorch, vLLM, SGLang)在AMD GPU上进行优化,并将改进贡献到上游
GPU内核与算子优化:开发和调优GPU内核及性能关键算子,以最大化吞吐量并最小化延迟
模型与架构优化:适配和优化LLM架构(例如Llama, Qwen, DeepSeek),并应用FlashAttention、PagedAttention和量化等先进技术
端到端性能工程:进行全面性能分析以识别瓶颈,并在多GPU和多节点设置中实施系统、内存和通信优化
编译器与流水线加速:利用先进的编译器技术和图编译器来增强完整的深度学习和推理流水线
研究与先进技术:将推测解码和仅权重量化等新兴优化方法原型化并集成到生产系统中
跨团队与开源协作:与内部GPU库团队和开源维护者合作,协调改进并确保无缝的上游集成
软件工程卓越:应用稳健的工程实践,交付可维护、可靠且达到生产质量标准的性能优化