GPU内核开发与优化:在AMD GPU上使用HIP、CUDA和汇编(ASM)为深度学习设计和优化GPU内核的深厚经验
深入了解AMD架构(GCN, RDNA)和底层编程,以最大化AI操作的性能,利用Compute Kernel (CK)、CUTLASS和Triton等工具实现多GPU和多平台性能
深度学习集成:将优化的GPU性能集成到机器学习和LLM框架(如vLLM, SGlang,TensorFlow, PyTorch)中以加速模型训练和推理的丰富经验,重点关注扩展性和吞吐量
端到端解决方案优化:了解LLM和多模态的最新市场趋势,在分布式推理(例如,P/D解耦和Large-EP)和强化学习方面拥有扎实的端到端性能调优实践经验
有文本到视频或图像到视频经验者优先
软件工程:熟练掌握Python和C++,具有调试、性能调优和测试设计经验,以确保高质量、可维护的软件解决方案
高性能计算:在异构计算集群上运行大规模工作负载、优化效率和可扩展性的专家经验
编译器优化:对编译器理论以及用于内核和系统性能优化的LLVM和ROCm等工具有扎实的理解