深度学习与LLM框架优化:具备优化主流DL/LLM框架(PyTorch、vLLM、SGLang)以适配AMD GPU并向上游贡献改进的经验
模型感知实现:构建与LLM和多模态架构(例如Llama、Qwen-VL、Wan)紧密交互的功能,需要理解注意力机制、跨模态融合、KV缓存和量化
性能意识编码:编写高效、可扩展的代码,同时考虑多GPU环境中的内存使用、并发性和瓶颈
性能分析:使用性能分析工具评估更改的影响,识别性能回退,并在开发周期内验证性能改进
端到端性能工程:进行全面性能分析以识别瓶颈,并在多GPU和多节点设置中实施系统、内存和通信优化
编译器与流水线加速:利用编译器技术和图编译器来增强完整的深度学习和推理流水线
研究与先进技术:将推测解码和仅权重量化等新兴优化方法原型化并集成到生产系统中
跨团队与开源协作:与内部GPU库团队和开源维护者合作,协调改进并确保无缝的上游集成
软件工程卓越性:应用稳健的工程实践,交付可维护、可靠且具备生产质量的性能优化