优化深度学习框架:在开源存储库中增强和优化TensorFlow和PyTorch等框架以适配AMD GPU
开发GPU内核:创建和优化GPU内核,以最大化特定AI操作的性能
开发与优化模型:为AMD GPU性能专门设计和优化深度学习模型
与GPU库团队协作:与内部团队密切合作,分析和改进AMD GPU上的训练和推理性能
与开源维护者协作:与框架维护者合作,确保代码更改符合要求并集成到上游
在分布式计算环境中工作:在纵向扩展(多GPU)和横向扩展(多节点)系统上优化深度学习性能
利用尖端编译器技术:利用先进的编译器技术来提高深度学习性能
优化深度学习管道:增强整个管道,包括集成图编译器
软件工程最佳实践:应用合理的工程原理以确保稳健、可维护的解决方案
指导与引导:为初级团队成员提供指导,通过代码审查、知识共享和技术指导促进成长和协作