超威半导体的AI Software System Designer(GPU Kernel)薪资是多少？

该职位薪资范围为 50k–80k（人民币/月）。

AI Software System Designer(GPU Kernel)的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

超威半导体的AI Software System Designer(GPU Kernel)有什么任职要求？

该职位要求硕士学历及专家级经验工作经验。

超威半导体

AI Software System Designer(GPU Kernel)

立即应聘

AI Software System Designer(GPU Kernel)

发布于大约 2 个月前

普通员工/个人贡献者

上海市

专家级经验

全职员工

仅现场办公

硕士

软件工程

CUDA

Machine Learning

HIP

vLLM

TensorRT-LLM

Gpu Kernel

Ai Framework

AI 估算 · 50k–80k

GPU Kernel专家稀缺，AMD作为AI芯片巨头薪资竞争力强，结合上海高级技术岗位市场水平估算。

职位详情

关于这个职位

加入AMD，你将参与设计并优化GPU Kernel，为AI训练与推理提供高性能软件解决方案

工作涉及从底层算子开发（如MHA、MOE）到框架集成（如vLLM、TensorRT-LLM），并与顶级客户合作推动PoC项目

适合在GPU计算、并行编程和AI框架方面有深厚积累的专家

最低要求

THE PERSON: Success in this role requires expert knowledge in machine learning areas such as kernel operators (like MHA, MLA, MOE etc.) by program languages (like Triton/DSL, cuda/hip, PTX/ASM etc.) and some development libraries (like cutlass/CK etc.), frameworks, distributions, compilers, performance optimizations for inference or training, along with strong programming skills in C++ and Python. Candidates must also have hands-on experience with industry AI use scenarios and solutions, end-to-end pipelines, frameworks or SDKs, parallel programming, and having strong debugging and development skillsets.

ACADEMIC CREDENTIALS: Bachelor’s or Master's degree in Computer Science, Computer Engineering, Electrical Engineering, or equivalent.

工作职责

KEY RESPONSIBILITIES:

Position technical proposals and support to top customers.

Provide significant contribution to customer PoC success.

Drive custom requirements for AI SW performance and stability, including from POC requirement to POR release, from GPU kernel to frameworks and distribution solutions.

Collaborate and interact with different teams to analyze and optimize training and inference workloads from kernels, frameworks to solutions.

Analyze competitive solutions to identify strength and weakness for articulate value propositions.

Apply your knowledge of software engineering best practices.

优先资格

PREFERRED EXPERIENCE: Ability to work independently, define project goals and scope, and lead your own development effort. Solid communication skills, in both English and mandarin. Excellent in GPU kernel primitive like Attention (FA, PA, MLA, linear Attn etc.), MOE, TOPK design (algorithms) and development (with Triton/DSL, Cutlass/CK, CUDA/HIP, PTX/ASM etc.). Excellent programming skills in Python, C++ and software skills, including debugging and performance analysis. Experiences with model inference optimization process like GEMM/convolution tuning, graph optimization and operator fusion. Experiences with AI frameworks(e.g. vLLM, Sglang, Megatron-LM, Deepspeed, TensorRT, TensorRT-LLM etc.). Knowledge of compiler (Torch, Triton, LLVM, XLA HLO, graph) is a plus. Knowledge of Linux ROCm/CUDA runtime and KMD/UMD driver is a plus. Knowledge of AI distribution solutions (i.e. EP/SP/CP/TP/PP/DP, DeepEp, DualPipe, PD aggregation etc., KV cache transfer and storage). Knowledge of AI distributed network communication with multi-GPU and multi-node collective communication primitives (NCCL/RCCL), NIC/GPU drivers for RDMA/GDR and high-speed network etc. Knowledge of Linux OS/driver, CI and toolchain (profiler/DCGM) development and debugging.

AI 洞察

优缺点分析

优点

AMD在AI芯片市场快速崛起，GPU Kernel岗位处于核心技术前沿，技能极具市场价值
接触顶级客户和前沿AI模型，参与从底层到应用层的全链路优化，技术视野开阔
公司文化鼓励创新，提供丰富的学习资源和内部技术分享平台
技术深度要求极高，需要同时掌握底层硬件、编译器和框架，学习曲线陡峭
工作强度可能较大，尤其在PoC关键期和产品发布周期，需要抗压能力
岗位面向高端人才，竞争激烈，需要持续保持技术领先
适合对GPU计算有深厚热情、喜欢解决底层性能难题、追求技术极致的高阶工程师

缺点 / 挑战

暂无明显挑战项

角色解读

技术专家路线：深耕GPU Kernel和AI加速，成为AMD内部核心算子库的架构师
架构师路线：扩展系统视野，参与AI硬件与软件协同设计，影响下一代GPU架构
管理路线：带领团队攻克技术难题，晋升为技术经理或总监
负责设计并优化GPU底层Kernel算子，如Attention、MOE等，提升AI训练与推理性能
与顶级客户合作，提供技术方案并推动概念验证（PoC）项目成功落地
参与从GPU Kernel到AI框架（如vLLM、TensorRT-LLM）的全栈性能优化
分析竞品解决方案，提炼AMD产品的优势卖点
精通GPU Kernel开发，熟练使用Triton/DSL、CUDA/HIP、PTX/ASM等编程语言
扎实的C++和Python编程能力，具备调试和性能分析经验
深入理解机器学习算子（如MHA、MOE），熟悉AI推理优化技术（如GEMM调优、算子融合）
熟悉主流AI框架（vLLM、Megatron-LM、DeepSpeed等）和分布式解决方案（TP/PP/DP等）

申请策略

在简历和面试中强调对AI硬件加速的理解，展现从算法到硬件的系统思考
关注AMD的AI战略和最新产品（如MI300系列），在面试中体现对公司的了解
突出GPU Kernel开发项目经验，尤其是使用Triton/CUDA实现Attention、MOE等算子的案例
强调性能优化成果，如算子加速比、内存优化等量化数据
展示对AI框架（vLLM、TensorRT-LLM等）的贡献或深度使用经验
提及分布式训练/推理相关的实践，如TP/PP/DP等方案
巩固CUDA/HIP底层编程，练习PTX/ASM汇编写法
学习主流AI推理框架vLLM和TensorRT-LLM的源码，理解其Kernel调用逻辑

面试指南

技术问题采用STAR法则（情境-任务-行动-结果），量化成果
对于系统设计问题，先明确目标约束（性能、显存、延迟等），再逐步拆解方案
比较性问题（如Triton vs CUDA）需全面分析技术原理，体现辩证思维
请详细描述你优化过的一个GPU Kernel，包括算法选择、优化策略和最终性能提升
如何实现Flash Attention？请从算法和GPU实现两个层面讲解
在分布式训练中，如何平衡计算与通信？PP和DP的优缺点分别是什么？
请解释Triton DSL相比CUDA的优劣势，并举例说明适用场景
如果模型推理遇到显存不足，你会从哪些方面尝试优化？

职位点评

综合评分

AI芯片巨头核心岗位，前沿GPU Kernel技术，高成长高回报，WLB一般。

更适合这类人

最适合追求技术成长和前沿创新的求职者，如果重视工作生活平衡则需考虑。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活50

使命价值80

薪资福利

85较高

AMD作为上市跨国巨头，薪资福利具有竞争力，但JD未披露具体数字，按行业惯例属于市场偏上水平。

薪资信号未披露（AI估算：50K-80K/月）

福利待遇AMD benefits at a glance

成长发展

90较高

岗位涉及最前沿的GPU Kernel技术和AI加速，成长空间极大，但JD未明确提及晋升路径。

技术前沿前沿/新兴技术

技术栈GPU Kernel、CUDA、HIP、Triton、AI Framework、vLLM、TensorRT-LLM、Distributed Training

业务类型profit_center

工作生活

50较低

上海现场办公，JD未提及弹性工作或WLB信息，推测为常规办公模式，通勤可能较长。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

80较高

AMD致力于加速AI计算，岗位直接贡献于下一代计算体验，使命感强，但JD中未明确社会影响表述。

行业发展高速增长赛道

社会影响中性/一般

使命信号accelerate next-generation computing experiences、shape the future of AI

创新程度积极采用新技术

Watch Jobs

超威半导体

AI Software System Designer(GPU Kernel)

立即应聘

AI Software System Designer(GPU Kernel)

发布于大约 2 个月前

普通员工/个人贡献者

上海市

专家级经验

全职员工

仅现场办公

硕士

软件工程

CUDA

Machine Learning

HIP

vLLM

TensorRT-LLM

Gpu Kernel

Ai Framework

AI 估算 · 50k–80k

GPU Kernel专家稀缺，AMD作为AI芯片巨头薪资竞争力强，结合上海高级技术岗位市场水平估算。

职位详情

关于这个职位

加入AMD，你将参与设计并优化GPU Kernel，为AI训练与推理提供高性能软件解决方案

工作涉及从底层算子开发（如MHA、MOE）到框架集成（如vLLM、TensorRT-LLM），并与顶级客户合作推动PoC项目

适合在GPU计算、并行编程和AI框架方面有深厚积累的专家

最低要求

ACADEMIC CREDENTIALS: Bachelor’s or Master's degree in Computer Science, Computer Engineering, Electrical Engineering, or equivalent.

工作职责

KEY RESPONSIBILITIES:

Position technical proposals and support to top customers.

Provide significant contribution to customer PoC success.

Drive custom requirements for AI SW performance and stability, including from POC requirement to POR release, from GPU kernel to frameworks and distribution solutions.

Collaborate and interact with different teams to analyze and optimize training and inference workloads from kernels, frameworks to solutions.

Analyze competitive solutions to identify strength and weakness for articulate value propositions.

Apply your knowledge of software engineering best practices.

优先资格

AI 洞察

优缺点分析

优点

AMD在AI芯片市场快速崛起，GPU Kernel岗位处于核心技术前沿，技能极具市场价值
接触顶级客户和前沿AI模型，参与从底层到应用层的全链路优化，技术视野开阔
公司文化鼓励创新，提供丰富的学习资源和内部技术分享平台
技术深度要求极高，需要同时掌握底层硬件、编译器和框架，学习曲线陡峭
工作强度可能较大，尤其在PoC关键期和产品发布周期，需要抗压能力
岗位面向高端人才，竞争激烈，需要持续保持技术领先
适合对GPU计算有深厚热情、喜欢解决底层性能难题、追求技术极致的高阶工程师

缺点 / 挑战

暂无明显挑战项

角色解读

技术专家路线：深耕GPU Kernel和AI加速，成为AMD内部核心算子库的架构师
架构师路线：扩展系统视野，参与AI硬件与软件协同设计，影响下一代GPU架构
管理路线：带领团队攻克技术难题，晋升为技术经理或总监
负责设计并优化GPU底层Kernel算子，如Attention、MOE等，提升AI训练与推理性能
与顶级客户合作，提供技术方案并推动概念验证（PoC）项目成功落地
参与从GPU Kernel到AI框架（如vLLM、TensorRT-LLM）的全栈性能优化
分析竞品解决方案，提炼AMD产品的优势卖点
精通GPU Kernel开发，熟练使用Triton/DSL、CUDA/HIP、PTX/ASM等编程语言
扎实的C++和Python编程能力，具备调试和性能分析经验
深入理解机器学习算子（如MHA、MOE），熟悉AI推理优化技术（如GEMM调优、算子融合）
熟悉主流AI框架（vLLM、Megatron-LM、DeepSpeed等）和分布式解决方案（TP/PP/DP等）

申请策略

在简历和面试中强调对AI硬件加速的理解，展现从算法到硬件的系统思考
关注AMD的AI战略和最新产品（如MI300系列），在面试中体现对公司的了解
突出GPU Kernel开发项目经验，尤其是使用Triton/CUDA实现Attention、MOE等算子的案例
强调性能优化成果，如算子加速比、内存优化等量化数据
展示对AI框架（vLLM、TensorRT-LLM等）的贡献或深度使用经验
提及分布式训练/推理相关的实践，如TP/PP/DP等方案
巩固CUDA/HIP底层编程，练习PTX/ASM汇编写法
学习主流AI推理框架vLLM和TensorRT-LLM的源码，理解其Kernel调用逻辑

面试指南

技术问题采用STAR法则（情境-任务-行动-结果），量化成果
对于系统设计问题，先明确目标约束（性能、显存、延迟等），再逐步拆解方案
比较性问题（如Triton vs CUDA）需全面分析技术原理，体现辩证思维
请详细描述你优化过的一个GPU Kernel，包括算法选择、优化策略和最终性能提升
如何实现Flash Attention？请从算法和GPU实现两个层面讲解
在分布式训练中，如何平衡计算与通信？PP和DP的优缺点分别是什么？
请解释Triton DSL相比CUDA的优劣势，并举例说明适用场景
如果模型推理遇到显存不足，你会从哪些方面尝试优化？

职位点评

综合评分

AI芯片巨头核心岗位，前沿GPU Kernel技术，高成长高回报，WLB一般。

更适合这类人

最适合追求技术成长和前沿创新的求职者，如果重视工作生活平衡则需考虑。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活50

使命价值80

薪资福利

85较高

AMD作为上市跨国巨头，薪资福利具有竞争力，但JD未披露具体数字，按行业惯例属于市场偏上水平。

薪资信号未披露（AI估算：50K-80K/月）

福利待遇AMD benefits at a glance

成长发展

90较高

岗位涉及最前沿的GPU Kernel技术和AI加速，成长空间极大，但JD未明确提及晋升路径。

技术前沿前沿/新兴技术

技术栈GPU Kernel、CUDA、HIP、Triton、AI Framework、vLLM、TensorRT-LLM、Distributed Training

业务类型profit_center

工作生活

50较低

上海现场办公，JD未提及弹性工作或WLB信息，推测为常规办公模式，通勤可能较长。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

80较高

AMD致力于加速AI计算，岗位直接贡献于下一代计算体验，使命感强，但JD中未明确社会影响表述。

行业发展高速增长赛道

社会影响中性/一般

使命信号accelerate next-generation computing experiences、shape the future of AI

创新程度积极采用新技术

Watch Jobs

AI Software System Designer(GPU Kernel)

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

AI Software System Designer(GPU Kernel)

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

超威半导体 的其他在招职位

Systems Design Engineer

Sr. Manager, Partner Portfolio and Partner Marketing - Asia OEMs

Customer Debug Lead

AI Training Optimization Engineer

AI Inference/GPU Kernel Engineer

相似职位推荐

AI应用开发工程师（Python）-A2

后端研发工程师实习生-2027届

Android高级开发工程师

腾讯在线视频算法工程师

开发岗位-A2

超威半导体 的其他在招职位

Systems Design Engineer

Sr. Manager, Partner Portfolio and Partner Marketing - Asia OEMs

Customer Debug Lead

AI Training Optimization Engineer

AI Inference/GPU Kernel Engineer

相似职位推荐

AI应用开发工程师（Python）-A2

后端研发工程师实习生-2027届

Android高级开发工程师

腾讯在线视频算法工程师

开发岗位-A2

超威半导体的其他在招职位

超威半导体的其他在招职位