超威半导体的GPU Kernel Development Engineer薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

GPU Kernel Development Engineer的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

超威半导体的GPU Kernel Development Engineer有什么任职要求？

该职位要求本科学历及中级经验工作经验。

超威半导体

GPU Kernel Development Engineer

立即应聘

GPU Kernel Development Engineer

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

HPC

TensorFlow

CUDA

LLVM

ROCm

HIP

Gpu Kernel

AI 估算 · 25k–45k

GPU内核开发属于稀缺技能，AMD作为大厂提供有竞争力薪资，上海生活成本较高，综合考虑市场水平

职位详情

关于这个职位

加入AMD，成为GPU内核开发工程师，负责优化深度学习框架（如PyTorch、TensorFlow）在AMD GPU上的性能，开发高性能GPU内核，并与开源社区合作

你将涉及多GPU和多节点系统，利用编译器技术推动AI计算效率

适合有C++、GPU编程（HIP/CUDA）经验，热爱底层优化和AI技术的工程师

最低要求

计算机科学、计算机工程、电气工程或相关领域的学士和/或硕士学位

年以上技术软件开发经验，专注于GPU优化、性能工程和框架开发

工作职责

优化深度学习框架：在开源仓库中增强和优化TensorFlow和PyTorch等框架以适应AMD GPU

开发GPU内核：创建和优化GPU内核以最大化特定AI操作的性能

开发和优化模型：设计并优化针对AMD GPU性能的深度学习模型

与GPU库团队合作：与内部团队紧密合作，分析和改进AMD GPU上的训练和推理性能

与开源维护者合作：与框架维护者沟通，确保代码变更符合要求并集成到上游

在分布式计算环境中工作：优化多GPU（scale-up）和多节点（scale-out）系统的深度学习性能

利用尖端编译器技术：使用高级编译器技术提升深度学习性能

优化深度学习流水线：增强完整流水线，包括集成图编译器

软件工程最佳实践：应用稳健的工程原则确保解决方案的可维护性

优先资格

在AMD GPU上使用HIP、CUDA和汇编（ASM）设计和优化GPU内核的经验

熟悉AMD架构（GCN、RDNA）和底层编程

使用Compute Kernel (CK)、CUTLASS和Triton进行多GPU和多平台性能优化

有深度学习框架（TensorFlow、PyTorch）集成经验

精通Python和C++，具备调试、性能调优和测试设计能力

有大规模异构计算集群运行经验

了解编译器理论和LLVM/ROCm工具

AI 洞察

优缺点分析

优点

站在AI算力优化的最前沿，接触最核心的GPU底层技术和最新的编译器工具链，技能壁垒高
AMD作为GPU巨头，平台和资源丰富，有机会参与开源顶级项目，个人影响力可辐射整个AI社区
职位专注于性能优化，与学术界和工业界紧密联系，职业发展空间广阔，薪资水平有竞争力
技术门槛高，需要深入理解硬件架构和底层编程，学习曲线陡峭，调试复杂内核非常耗时
开源协作需要良好的沟通和版本管理能力，代码审查严格，对软件工程规范性要求高

缺点 / 挑战

工作强度可能较高，尤其是在项目关键阶段或版本发布前，需要投入较多时间进行性能调优
适合对硬件底层有浓厚兴趣、享受极致性能优化、愿意深入钻研GPU架构的软件工程师，尤其是喜欢挑战和高技术难度的人

角色解读

技术专家路线：深入GPU内核和编译器领域，成为AMD内部或业界的算力优化专家
架构师路线：从单一内核优化扩展到整个深度学习编译栈（如Triton、Graph Compiler），设计下一代AI加速方案
管理路线：积累经验后带领团队负责GPU软件栈的某个方向，或转向技术项目经理协调跨团队合作
编写和优化GPU内核代码，针对深度学习算子进行性能调优，最大化AMD GPU的计算效率
与开源社区协作，将优化代码合并到PyTorch、TensorFlow等主流框架中，推动AI基础设施发展
参与多GPU和多节点分布式系统性能优化，解决大规模训练和推理的瓶颈问题
使用编译器技术（如LLVM）和工具（如ROCm）提升深度学习流水线的整体性能
精通C++和Python，熟悉Linux开发环境，具备高性能计算编程能力
深刻理解GPU架构（如AMD GCN/RDNA），熟练使用HIP、CUDA或汇编进行内核开发
有深度学习框架内部实现经验，了解TensorFlow/PyTorch的计算图和算子注册机制
掌握性能分析工具，具备系统级调试和性能调优能力，能定位内存带宽、计算延迟等瓶颈

申请策略

关注AMD GPU的开发者博客和白皮书，展示你对AMD技术路线的热情
在简历和面试中强调你解决性能问题的系统方法，比如如何分析瓶颈、设计实验、迭代优化
突出GPU内核开发项目经历，明确展示性能提升数据（如吞吐量提高X%，延迟降低Yms）
列出参与开源框架贡献的Pull Request链接，强调在TensorFlow/PyTorch中的具体优化模块
详述C++/Python编程能力，附带性能分析工具（如Nsight、Perf）的使用经验和成果
如有编译器或汇编优化经验，单独列出相关项目，展示对底层技术的深入理解
学习AMD ROCm软件栈，动手搭建环境并运行HIP样例，熟悉HIP与CUDA的异同
研究深度学习框架的Kernel注册机制，尝试自己编写一个简单的算子并集成到PyTorch中

面试指南

使用STAR法则（情境-任务-行动-结果）描述案例，重点突出量化指标和迭代过程
对于对比类问题，先说出通用原理，再列出差异点，最后举例说明在实际项目中的选择考量
对于设计类问题，从内存访问模式、计算量、并行度、指令级优化等维度展开分析
请描述一个你优化GPU内核的案例，如何发现瓶颈，做了什么优化，效果如何？
HIP和CUDA在内存管理和同步机制上有哪些主要区别？如何实现跨平台兼容？
解释一下Warp/Wavefront的概念，以及它在性能优化中如何利用？
给定一个简单的卷积算子，你会如何设计GPU Kernel来最大化性能？
你如何评价一个深度学习框架的算子性能？常用的profiling工具有哪些？

职位点评

综合评分

技术驱动的高门槛GPU内核岗，成长爆炸但WLB一般

更适合这类人

适合将技术成长作为首要目标的求职者，尤其是渴望在AI底层计算领域深耕的人，愿意为技术深度接受一定的WLB妥协

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活50

使命价值85

薪资福利

80较高

大厂薪酬体系完善，GPU稀缺岗位薪资具有市场竞争力，但未在JD中明确具体数字，整体补偿性适中偏上

薪资信号未披露（AI估算：25K-45K/月）

成长发展

95较高

职位聚焦AI算力前沿技术，涉及GPU内核、编译器、分布式系统，职业成长空间极大，技术迭代快

技术前沿前沿/新兴技术

技术栈GPU Kernel、HIP、CUDA、LLVM、ROCm、PyTorch、TensorFlow、HPC、Compiler

成长机会advance your career

业务类型profit_center

工作生活

50较低

仅现场办公，未提及弹性工作或远程，上海通勤压力大，工作强度可能较高，WLB信号不明显

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

85较高

参与AI基础设施核心研发，推动下一代计算体验，行业前景光明，但社会价值直接感知较弱

行业发展高速增长赛道

社会影响中性/一般

使命信号build great products that accelerate next-generation computing experiences

创新程度积极采用新技术

Watch Jobs

超威半导体

GPU Kernel Development Engineer

立即应聘

GPU Kernel Development Engineer

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

HPC

TensorFlow

CUDA

LLVM

ROCm

HIP

Gpu Kernel

AI 估算 · 25k–45k

GPU内核开发属于稀缺技能，AMD作为大厂提供有竞争力薪资，上海生活成本较高，综合考虑市场水平

职位详情

关于这个职位

加入AMD，成为GPU内核开发工程师，负责优化深度学习框架（如PyTorch、TensorFlow）在AMD GPU上的性能，开发高性能GPU内核，并与开源社区合作

你将涉及多GPU和多节点系统，利用编译器技术推动AI计算效率

适合有C++、GPU编程（HIP/CUDA）经验，热爱底层优化和AI技术的工程师

最低要求

计算机科学、计算机工程、电气工程或相关领域的学士和/或硕士学位

年以上技术软件开发经验，专注于GPU优化、性能工程和框架开发

工作职责

优化深度学习框架：在开源仓库中增强和优化TensorFlow和PyTorch等框架以适应AMD GPU

开发GPU内核：创建和优化GPU内核以最大化特定AI操作的性能

开发和优化模型：设计并优化针对AMD GPU性能的深度学习模型

与GPU库团队合作：与内部团队紧密合作，分析和改进AMD GPU上的训练和推理性能

与开源维护者合作：与框架维护者沟通，确保代码变更符合要求并集成到上游

在分布式计算环境中工作：优化多GPU（scale-up）和多节点（scale-out）系统的深度学习性能

利用尖端编译器技术：使用高级编译器技术提升深度学习性能

优化深度学习流水线：增强完整流水线，包括集成图编译器

软件工程最佳实践：应用稳健的工程原则确保解决方案的可维护性

优先资格

在AMD GPU上使用HIP、CUDA和汇编（ASM）设计和优化GPU内核的经验

熟悉AMD架构（GCN、RDNA）和底层编程

使用Compute Kernel (CK)、CUTLASS和Triton进行多GPU和多平台性能优化

有深度学习框架（TensorFlow、PyTorch）集成经验

精通Python和C++，具备调试、性能调优和测试设计能力

有大规模异构计算集群运行经验

了解编译器理论和LLVM/ROCm工具

AI 洞察

优缺点分析

优点

站在AI算力优化的最前沿，接触最核心的GPU底层技术和最新的编译器工具链，技能壁垒高
AMD作为GPU巨头，平台和资源丰富，有机会参与开源顶级项目，个人影响力可辐射整个AI社区
职位专注于性能优化，与学术界和工业界紧密联系，职业发展空间广阔，薪资水平有竞争力
技术门槛高，需要深入理解硬件架构和底层编程，学习曲线陡峭，调试复杂内核非常耗时
开源协作需要良好的沟通和版本管理能力，代码审查严格，对软件工程规范性要求高

缺点 / 挑战

工作强度可能较高，尤其是在项目关键阶段或版本发布前，需要投入较多时间进行性能调优
适合对硬件底层有浓厚兴趣、享受极致性能优化、愿意深入钻研GPU架构的软件工程师，尤其是喜欢挑战和高技术难度的人

角色解读

技术专家路线：深入GPU内核和编译器领域，成为AMD内部或业界的算力优化专家
架构师路线：从单一内核优化扩展到整个深度学习编译栈（如Triton、Graph Compiler），设计下一代AI加速方案
管理路线：积累经验后带领团队负责GPU软件栈的某个方向，或转向技术项目经理协调跨团队合作
编写和优化GPU内核代码，针对深度学习算子进行性能调优，最大化AMD GPU的计算效率
与开源社区协作，将优化代码合并到PyTorch、TensorFlow等主流框架中，推动AI基础设施发展
参与多GPU和多节点分布式系统性能优化，解决大规模训练和推理的瓶颈问题
使用编译器技术（如LLVM）和工具（如ROCm）提升深度学习流水线的整体性能
精通C++和Python，熟悉Linux开发环境，具备高性能计算编程能力
深刻理解GPU架构（如AMD GCN/RDNA），熟练使用HIP、CUDA或汇编进行内核开发
有深度学习框架内部实现经验，了解TensorFlow/PyTorch的计算图和算子注册机制
掌握性能分析工具，具备系统级调试和性能调优能力，能定位内存带宽、计算延迟等瓶颈

申请策略

关注AMD GPU的开发者博客和白皮书，展示你对AMD技术路线的热情
在简历和面试中强调你解决性能问题的系统方法，比如如何分析瓶颈、设计实验、迭代优化
突出GPU内核开发项目经历，明确展示性能提升数据（如吞吐量提高X%，延迟降低Yms）
列出参与开源框架贡献的Pull Request链接，强调在TensorFlow/PyTorch中的具体优化模块
详述C++/Python编程能力，附带性能分析工具（如Nsight、Perf）的使用经验和成果
如有编译器或汇编优化经验，单独列出相关项目，展示对底层技术的深入理解
学习AMD ROCm软件栈，动手搭建环境并运行HIP样例，熟悉HIP与CUDA的异同
研究深度学习框架的Kernel注册机制，尝试自己编写一个简单的算子并集成到PyTorch中

面试指南

使用STAR法则（情境-任务-行动-结果）描述案例，重点突出量化指标和迭代过程
对于对比类问题，先说出通用原理，再列出差异点，最后举例说明在实际项目中的选择考量
对于设计类问题，从内存访问模式、计算量、并行度、指令级优化等维度展开分析
请描述一个你优化GPU内核的案例，如何发现瓶颈，做了什么优化，效果如何？
HIP和CUDA在内存管理和同步机制上有哪些主要区别？如何实现跨平台兼容？
解释一下Warp/Wavefront的概念，以及它在性能优化中如何利用？
给定一个简单的卷积算子，你会如何设计GPU Kernel来最大化性能？
你如何评价一个深度学习框架的算子性能？常用的profiling工具有哪些？

职位点评

综合评分

技术驱动的高门槛GPU内核岗，成长爆炸但WLB一般

更适合这类人

适合将技术成长作为首要目标的求职者，尤其是渴望在AI底层计算领域深耕的人，愿意为技术深度接受一定的WLB妥协

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活50

使命价值85

薪资福利

80较高

大厂薪酬体系完善，GPU稀缺岗位薪资具有市场竞争力，但未在JD中明确具体数字，整体补偿性适中偏上

薪资信号未披露（AI估算：25K-45K/月）

成长发展

95较高

职位聚焦AI算力前沿技术，涉及GPU内核、编译器、分布式系统，职业成长空间极大，技术迭代快

技术前沿前沿/新兴技术

技术栈GPU Kernel、HIP、CUDA、LLVM、ROCm、PyTorch、TensorFlow、HPC、Compiler

成长机会advance your career

业务类型profit_center

工作生活

50较低

仅现场办公，未提及弹性工作或远程，上海通勤压力大，工作强度可能较高，WLB信号不明显

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

85较高

参与AI基础设施核心研发，推动下一代计算体验，行业前景光明，但社会价值直接感知较弱

行业发展高速增长赛道

社会影响中性/一般

使命信号build great products that accelerate next-generation computing experiences

创新程度积极采用新技术

Watch Jobs

GPU Kernel Development Engineer

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

GPU Kernel Development Engineer

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

超威半导体 的其他在招职位

Customer Debug Lead

AI Training Optimization Engineer

AI Inference/GPU Kernel Engineer

Memory/SSD SMTS and team lead

AI Inference Engineer

相似职位推荐

Quality Assurance Engineer

儲能-EMS軟件開發

AI工程师

大数据开发工程师

系統开发工程师

超威半导体 的其他在招职位

Customer Debug Lead

AI Training Optimization Engineer

AI Inference/GPU Kernel Engineer

Memory/SSD SMTS and team lead

AI Inference Engineer

相似职位推荐

Quality Assurance Engineer

儲能-EMS軟件開發

AI工程师

大数据开发工程师

系統开发工程师

超威半导体的其他在招职位

超威半导体的其他在招职位