AI Software Engineer - LLM Kernel & Inference Systems的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

AI Software Engineer - LLM Kernel & Inference Systems

🤖 AI 估测：¥45K-80K

发布时间：6 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大语言模型（LLM）推理系统底层优化的资深软件工程师职位

你将深入GPU硬件层面，设计和优化LLM推理的核心内核（如注意力机制、KV缓存），并构建和调优跨多GPU/多节点的分布式推理系统

你的工作将直接影响AMD GPU在AI推理场景下的性能表现，并与开源社区紧密合作，推动技术发展

✓工作职责

优化LLM推理框架：在vLLM、SGLang和PyTorch等LLM推理框架中为AMD GPU驱动性能改进，进行内部和上游贡献

LLM感知内核开发：设计和优化对LLM推理至关重要的GPU内核，包括注意力、GEMM、KV缓存操作、MoE组件和内存限制内核

大规模分布式LLM推理：设计、实现和调优多GPU和多节点推理策略，包括TP/PP/EP混合、连续批处理、KV缓存管理和解耦服务

模型-系统协同设计：与模型和框架团队合作，使LLM架构与硬件感知优化保持一致，提高实际推理效率

编译器与运行时优化：利用编译器技术（LLVM、ROCm、Triton、图编译器）改进内核融合、内存访问模式和端到端推理流水线

端到端推理流水线优化：优化完整的推理堆栈——从模型执行图和运行时到调度、批处理和部署

开源领导力：与开源维护者合作，将优化贡献到上游，影响路线图方向，并确保贡献的长期可持续性

工程卓越性：应用软件工程最佳实践，包括性能基准测试、测试、调试和大规模可维护性

⭐最低要求

硕士或博士学位，计算机科学、计算机工程、电气工程或相关领域

👍优先资格

深厚的LLM知识：深入理解大语言模型推理，包括注意力机制、KV缓存行为、批处理策略以及延迟/吞吐量权衡

LLM推理框架：具有vLLM、SGLang或类似推理系统（例如FasterTransformer）的实践经验，并具备性能调优能力

GPU内核开发：在优化深度学习工作负载的GPU内核方面有丰富经验，特别是推理关键路径

分布式推理系统：具有设计和调优跨多GPU和多节点的大规模推理系统的经验

开源贡献：在ML、LLM或系统级开源项目中有有意义的向上游贡献的记录

编程与调试技能：精通Python和C++，在性能分析、剖析和调试复杂系统方面有深厚经验

高性能计算：具有在异构GPU集群上运行和优化大规模工作负载的经验

编译器与系统背景：扎实的编译器概念和工具（LLVM、ROCm、Triton）基础，应用于ML内核和运行时优化

AI Software Engineer - LLM Kernel & Inference Systems

🤖 AI 估测：¥45K-80K

发布时间：6 天前

核心评价

AI Software Engineer - LLM Kernel & Inference Systems

ℹ️关于这个职位

✓工作职责

⭐最低要求

👍优先资格

核心评价

AI Software Engineer - LLM Kernel & Inference Systems

ℹ️关于这个职位

✓工作职责

⭐最低要求

👍优先资格

超威半导体的其他在招职位

相似职位推荐

AI Software Engineer - LLM Kernel & Inference Systems

ℹ️关于这个职位

✓工作职责

⭐最低要求

👍优先资格

AI Software Engineer - LLM Kernel & Inference Systems

ℹ️关于这个职位

✓工作职责

⭐最低要求

👍优先资格

超威半导体 的其他在招职位

相似职位推荐

AI Software Engineer - LLM Kernel & Inference Systems

AI Software Engineer - LLM Kernel & Inference Systems

超威半导体的其他在招职位