拥有面向GPU的AI编译器栈主要组件的架构和设计,包括针对AMD GPU和异构加速器的前端IR构建、中端优化、后端Lowering和代码生成,并与AMD的ROCm™和更广泛的GPU软件方向保持一致
设计和实现基于MLIR和LLVM的编译器Pass:IR转换、适用的方言设计、优化、调度和分块策略,以及针对GPU硬件的端到端Lowering流水线
为AI模型、内核和算子提供高性能编译流程,优化在现代GPU上的执行
采用数据驱动的方法——对关键工作负载进行基准测试、性能分析和调优,并在图、IR和内核级别调查正确性和性能回归
使用LLVM、Clang和现代C++工具链(MSVC/GCC/Clang)构建和优化后端代码生成,针对与AMD技术栈相关的GPU运行时和设备执行环境
与AI框架、运行时和系统团队紧密合作,提供从模型导入和图Lowering到设备执行的端到端GPU编译器解决方案
与GPU/硬件架构团队合作,进行功能启用、性能上限分析和软硬件协同规划
与量化团队合作,处理数值、精度模式(例如PTQ/QAT及相关流程),并在适用时通过编译器栈表示量化操作
与算法和框架相关方合作,处理算子覆盖、融合机会、自动调优/调度权衡以及模型驱动的性能目标
分析GPU性能瓶颈,并在图级、IR级和内核级转换(包括适当的向量化和内存层次结构感知策略)中实施高级优化
提供技术领导力:指导初级和高级工程师,领导设计和代码审查,并帮助建立编译器和GPU性能工程的最佳实践
根据需要领导多工程师或跨团队计划
影响长期编译器架构和GPU软件栈战略,以支持下一代AI硬件生态系统
参与跨越编译器、运行时和驱动程序边界的启动和生产问题解决
改进工具、CI、测试和工作流程,以实现可扩展的开发