端到端优化:在主流框架(如vLLM和SGlang)上构建和优化端到端分布式推理(例如,P/D解耦和Large-EP)和强化学习解决方案
与GPU库团队协作:与内部团队紧密合作,分析和改进AMD GPU上的训练和推理性能
与开源维护者协作:与框架维护者合作,确保代码更改符合要求并集成到上游
在分布式计算环境中工作:在横向扩展(多GPU)和纵向扩展(多节点)系统上优化深度学习性能
利用尖端编译器技术:利用先进的编译器技术来提高深度学习性能
优化深度学习流水线:增强整个流水线,包括集成图编译器
软件工程最佳实践:应用合理的工程原理以确保稳健、可维护的解决方案