Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

AMD logo
超威半导体
GPU Kernel Development Engineer
立即应聘

GPU Kernel Development Engineer

发布于 大约 6 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
硕士
GPU
深度学习
PyTorch
TensorFlow
CUDA
LLVM
ROCm
HIP

AI 估算 · 35k–60k

高级GPU内核开发工程师需求旺盛,AMD作为头部GPU公司薪资有竞争力,上海市场月薪中位数约4.7万。

职位详情

关于这个职位

作为AMD上海团队的核心成员,您将负责优化和开发深度学习框架(如TensorFlow、PyTorch)在AMD GPU上的性能,编写和优化GPU内核,并参与多GPU和多节点系统的分布式计算优化

这是一个技术深度极高的岗位,适合对GPU底层编程和AI加速有强烈兴趣的资深工程师

最低要求

计算机科学、计算机工程、电子工程或相关领域的硕士学位

年以上技术软件开发专业经验,专注于GPU优化、性能工程和框架开发

工作职责

优化深度学习框架:在开源仓库中增强和优化TensorFlow和PyTorch在AMD GPU上的性能

开发GPU内核:创建和优化GPU内核以最大化特定AI操作的性能
开发与优化模型:设计并优化针对AMD GPU性能的深度学习模型
与GPU库团队协作:与内部团队密切合作,分析和提升AMD GPU上的训练和推理性能
与开源维护者协作:与框架维护者沟通,确保代码变更符合要求并集成到上游
分布式计算环境工作:优化scale-up(多GPU)和scale-out(多节点)系统上的深度学习性能
利用前沿编译器技术:使用先进的编译器技术提升深度学习性能
优化深度学习流水线:提升完整流水线,包括集成图编译器
软件工程最佳实践:应用扎实的工程原则确保健壮、可维护的解决方案
指导与引导:通过代码审查、知识共享和技术指导为初级团队成员提供 mentorship

优先资格

在AMD GPU上使用HIP、CUDA和汇编进行GPU内核开发与优化的丰富经验

熟悉AMD架构(GCN、RDNA)和底层编程
具有深度学习框架(TensorFlow、PyTorch)集成经验
精通Python和C++,具备调试和性能调优能力
熟悉高性能计算和编译器优化(LLVM、ROCm)

AI 洞察

优缺点分析

优点

  • 身处AI算力爆发的核心赛道,技能稀缺性强,薪资和发展前景极好
  • AMD作为GPU双巨头之一,技术平台和资源雄厚,能接触到最前沿的硬件和软件栈
  • 工作内容技术深度高,能极大提升底层系统设计能力和编译器优化能力
  • 有机会与全球顶尖工程师和开源社区合作,影响力延伸到行业标准
  • 学习曲线陡峭,需要同时掌握硬件架构、GPU编程、深度学习框架和编译器多个领域
  • 市场上同类人才稀缺,竞争主要来自NVIDIA、Intel等公司,需要持续保持技术领先

缺点 / 挑战

  • 工作节奏可能较快,尤其是项目冲刺或跟进开源社区版本时压力较大
  • 适合热爱底层系统优化、对GPU架构和AI加速有强烈好奇心、享受攻克性能瓶颈的技术极客

角色解读

  • 可以深耕GPU内核优化方向,成为计算架构专家,主导下一代GPU的AI加速方案
  • 向系统架构师发展,负责大规模分布式训练系统的整体设计与优化
  • 也可以转向深度学习框架核心维护者角色,成为TensorFlow或PyTorch的顶级贡献者
  • 您是深度学习与GPU硬件的桥梁,核心工作是编写和优化GPU内核(Kernel),让AI模型在AMD GPU上跑得更快
  • 您需要直接修改TensorFlow和PyTorch等框架的底层代码,确保它们充分利用AMD GPU的算力
  • 您会参与分布式计算优化,让模型能在多GPU甚至多节点集群上高效训练和推理
  • 除了技术开发,您还需要与内部团队和开源社区协作,推动优化代码合并到上游版本
  • 扎实的C++和Python编程能力是基础,尤其需要精通GPU编程,包括HIP、CUDA甚至汇编
  • 对深度学习框架(PyTorch/TensorFlow)的内部机制有深入理解,能够修改其底层算子
  • 熟悉GPU体系结构(如AMD的GCN、RDNA),了解内存层次、线程调度等优化要点
  • 具备编译器知识(LLVM/ROCm)和性能调优经验,能够从编译器和系统层面提升性能

申请策略

  • AMD非常看重文化契合(协作、直接、谦逊),面试中要展现团队合作精神和开放态度
  • 提前了解AMD GPU产品线(如MI系列)和ROCm生态,展示对该平台的热忱
  • 突出GPU内核优化项目:详细描述你优化过的Kernel,包括性能提升数据(如延迟降低百分比、吞吐量提升)
  • 强调开源贡献:列出你在TensorFlow、PyTorch或其他相关项目的PR和贡献,附上链接
  • 展示深度学习框架修改经验:例如自定义算子、图编译器集成等,体现对框架底层的理解
  • 写明编译器调优经验:如使用LLVM、ROCm进行编译优化,或参与过编译器项目
  • 如果尚未熟悉AMD平台,建议先学习HIP编程和ROCm工具链,可以在AMD ROCm官方文档中实践
  • 补充分布式训练知识,了解NCCL/RCCL等通信库,以及模型并行和数据并行策略

面试指南

  • 对于性能优化问题,采用“分析-瓶颈-方案-验证”的结构:先描述性能分析工具(如roofline model),定位瓶颈,再给出优化措施(如共享内存、向量化),最后用数据证明效果
  • 对于框架集成问题,展示对框架算子注册机制的了解,说明如何编写GPU内核并绑定到Python接口,并提及跨平台兼容性考虑
  • 对于分布式问题,从数据并行、模型并行和流水线并行三个维度分析,结合实际场景给出权衡,并提及常用库(如RCCL)
  • 请描述你优化过的一个GPU内核,从分析到实现的具体步骤,以及如何测量性能提升?
  • 你如何将一个新的深度学习算子集成到PyTorch中,并确保它在AMD GPU上高效运行?
  • 解释一下GPU内存层次结构(全局内存、共享内存、寄存器等)对内核性能的影响?
  • 在分布式训练中,如何平衡计算和通信开销?你会使用哪些技术?
  • 你如何看待编译器在深度学习加速中的角色?请举例说明LLVM或ROCm的使用

匹配度报告

74
综合匹配度

AMD GPU内核开发岗,技术前沿、成长极强,薪资有竞争力,但WLB信号不足。

适合人群
最适合发展性动机强烈的求职者,追求技术深度和前沿创新,愿意在WLB方面做出一定妥协。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展95
工作生活50
使命价值70

薪资福利匹配

80较高

AMD为跨国上市巨头,薪资水平在上海具有竞争力,但职位描述未明确薪资范围,福利仅提及官网链接,总体补偿性较高但非顶级。

薪资信号未披露(AI估算:35K-60K/月)

成长发展匹配

95较高

该职位处于AI加速最前沿,技术栈(GPU、深度学习框架、编译器)均为新兴热门技术,且有 mentoring 和开源协作机会,发展性极强。

技术前沿前沿/新兴技术
技术栈GPU、HIP、CUDA、PyTorch、TensorFlow、LLVM、ROCm、Triton
成长机会mentor、mentorship、knowledge sharing
业务类型ambiguous

工作生活匹配

50较低

工作地点在上海,但未说明远程或弹性办公,职位描述未提及WLB相关信号,作为一线研发岗位,可能存在弹性需求。

工作模式未明确
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

AI加速芯片行业高速增长,AMD致力于推动计算进步,但职位本身偏底层技术,社会影响力间接体现,创新水平前沿但未强调使命。

行业发展高速增长赛道
社会影响中性/一般
使命信号build great products、solve the world’s most important challenges
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-50k
  • Systems Design Engineer

    超威半导体 · 上海市
    AI 估算 · 20k-35k
  • Sr. Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 40k-60k
  • Physical AI Partner Technical Enablement Lead

    超威半导体 · 上海市
    AI 估算 · 50k-80k
  • AI Product Performance Engineer

    超威半导体 · 深圳市
    AI 估算 · 30k-50k

相似职位推荐

  • 大数据研发工程师 — 实验评估方向

    字节跳动 · 北京市
    AI 估算 · 25k-50k
  • 机器人业务系统后端工程师-Seed

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 后端研发工程师-火山引擎

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 前端研发工程师-生活服务

    字节跳动 · 成都市
    AI 估算 · 20k-35k
  • 高级Wi-Fi软件开发工程师/专家-豆包手机助手(北京/深圳)

    字节跳动 · 北京市
    AI 估算 · 30k-50k

超威半导体 的其他在招职位

  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-50k
  • Systems Design Engineer

    超威半导体 · 上海市
    AI 估算 · 20k-35k
  • Sr. Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 40k-60k
  • Physical AI Partner Technical Enablement Lead

    超威半导体 · 上海市
    AI 估算 · 50k-80k
  • AI Product Performance Engineer

    超威半导体 · 深圳市
    AI 估算 · 30k-50k

相似职位推荐

  • 大数据研发工程师 — 实验评估方向

    字节跳动 · 北京市
    AI 估算 · 25k-50k
  • 机器人业务系统后端工程师-Seed

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 后端研发工程师-火山引擎

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 前端研发工程师-生活服务

    字节跳动 · 成都市
    AI 估算 · 20k-35k
  • 高级Wi-Fi软件开发工程师/专家-豆包手机助手(北京/深圳)

    字节跳动 · 北京市
    AI 估算 · 30k-50k