Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

AMD logo
超威半导体
GPU Kernel Development Engineer
立即应聘

GPU Kernel Development Engineer

发布于 大约 13 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
PyTorch
HPC
TensorFlow
CUDA
LLVM
ROCm
HIP
Gpu Kernel

AI 估算 · 25k–45k

GPU内核开发属于稀缺技能,AMD作为大厂提供有竞争力薪资,上海生活成本较高,综合考虑市场水平

职位详情

关于这个职位

加入AMD,成为GPU内核开发工程师,负责优化深度学习框架(如PyTorch、TensorFlow)在AMD GPU上的性能,开发高性能GPU内核,并与开源社区合作

你将涉及多GPU和多节点系统,利用编译器技术推动AI计算效率
适合有C++、GPU编程(HIP/CUDA)经验,热爱底层优化和AI技术的工程师

最低要求

计算机科学、计算机工程、电气工程或相关领域的学士和/或硕士学位

年以上技术软件开发经验,专注于GPU优化、性能工程和框架开发

工作职责

优化深度学习框架:在开源仓库中增强和优化TensorFlow和PyTorch等框架以适应AMD GPU

开发GPU内核:创建和优化GPU内核以最大化特定AI操作的性能
开发和优化模型:设计并优化针对AMD GPU性能的深度学习模型
与GPU库团队合作:与内部团队紧密合作,分析和改进AMD GPU上的训练和推理性能
与开源维护者合作:与框架维护者沟通,确保代码变更符合要求并集成到上游
在分布式计算环境中工作:优化多GPU(scale-up)和多节点(scale-out)系统的深度学习性能
利用尖端编译器技术:使用高级编译器技术提升深度学习性能
优化深度学习流水线:增强完整流水线,包括集成图编译器
软件工程最佳实践:应用稳健的工程原则确保解决方案的可维护性

优先资格

在AMD GPU上使用HIP、CUDA和汇编(ASM)设计和优化GPU内核的经验

熟悉AMD架构(GCN、RDNA)和底层编程
使用Compute Kernel (CK)、CUTLASS和Triton进行多GPU和多平台性能优化
有深度学习框架(TensorFlow、PyTorch)集成经验
精通Python和C++,具备调试、性能调优和测试设计能力
有大规模异构计算集群运行经验
了解编译器理论和LLVM/ROCm工具

AI 洞察

优缺点分析

优点

  • 站在AI算力优化的最前沿,接触最核心的GPU底层技术和最新的编译器工具链,技能壁垒高
  • AMD作为GPU巨头,平台和资源丰富,有机会参与开源顶级项目,个人影响力可辐射整个AI社区
  • 职位专注于性能优化,与学术界和工业界紧密联系,职业发展空间广阔,薪资水平有竞争力
  • 技术门槛高,需要深入理解硬件架构和底层编程,学习曲线陡峭,调试复杂内核非常耗时
  • 开源协作需要良好的沟通和版本管理能力,代码审查严格,对软件工程规范性要求高

缺点 / 挑战

  • 工作强度可能较高,尤其是在项目关键阶段或版本发布前,需要投入较多时间进行性能调优
  • 适合对硬件底层有浓厚兴趣、享受极致性能优化、愿意深入钻研GPU架构的软件工程师,尤其是喜欢挑战和高技术难度的人

角色解读

  • 技术专家路线:深入GPU内核和编译器领域,成为AMD内部或业界的算力优化专家
  • 架构师路线:从单一内核优化扩展到整个深度学习编译栈(如Triton、Graph Compiler),设计下一代AI加速方案
  • 管理路线:积累经验后带领团队负责GPU软件栈的某个方向,或转向技术项目经理协调跨团队合作
  • 编写和优化GPU内核代码,针对深度学习算子进行性能调优,最大化AMD GPU的计算效率
  • 与开源社区协作,将优化代码合并到PyTorch、TensorFlow等主流框架中,推动AI基础设施发展
  • 参与多GPU和多节点分布式系统性能优化,解决大规模训练和推理的瓶颈问题
  • 使用编译器技术(如LLVM)和工具(如ROCm)提升深度学习流水线的整体性能
  • 精通C++和Python,熟悉Linux开发环境,具备高性能计算编程能力
  • 深刻理解GPU架构(如AMD GCN/RDNA),熟练使用HIP、CUDA或汇编进行内核开发
  • 有深度学习框架内部实现经验,了解TensorFlow/PyTorch的计算图和算子注册机制
  • 掌握性能分析工具,具备系统级调试和性能调优能力,能定位内存带宽、计算延迟等瓶颈

申请策略

  • 关注AMD GPU的开发者博客和白皮书,展示你对AMD技术路线的热情
  • 在简历和面试中强调你解决性能问题的系统方法,比如如何分析瓶颈、设计实验、迭代优化
  • 突出GPU内核开发项目经历,明确展示性能提升数据(如吞吐量提高X%,延迟降低Yms)
  • 列出参与开源框架贡献的Pull Request链接,强调在TensorFlow/PyTorch中的具体优化模块
  • 详述C++/Python编程能力,附带性能分析工具(如Nsight、Perf)的使用经验和成果
  • 如有编译器或汇编优化经验,单独列出相关项目,展示对底层技术的深入理解
  • 学习AMD ROCm软件栈,动手搭建环境并运行HIP样例,熟悉HIP与CUDA的异同
  • 研究深度学习框架的Kernel注册机制,尝试自己编写一个简单的算子并集成到PyTorch中

面试指南

  • 使用STAR法则(情境-任务-行动-结果)描述案例,重点突出量化指标和迭代过程
  • 对于对比类问题,先说出通用原理,再列出差异点,最后举例说明在实际项目中的选择考量
  • 对于设计类问题,从内存访问模式、计算量、并行度、指令级优化等维度展开分析
  • 请描述一个你优化GPU内核的案例,如何发现瓶颈,做了什么优化,效果如何?
  • HIP和CUDA在内存管理和同步机制上有哪些主要区别?如何实现跨平台兼容?
  • 解释一下Warp/Wavefront的概念,以及它在性能优化中如何利用?
  • 给定一个简单的卷积算子,你会如何设计GPU Kernel来最大化性能?
  • 你如何评价一个深度学习框架的算子性能?常用的profiling工具有哪些?

匹配度报告

78
综合匹配度

技术驱动的高门槛GPU内核岗,成长爆炸但WLB一般

适合人群
适合将技术成长作为首要目标的求职者,尤其是渴望在AI底层计算领域深耕的人,愿意为技术深度接受一定的WLB妥协
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展95
工作生活50
使命价值85

薪资福利匹配

80较高

大厂薪酬体系完善,GPU稀缺岗位薪资具有市场竞争力,但未在JD中明确具体数字,整体补偿性适中偏上

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

95较高

职位聚焦AI算力前沿技术,涉及GPU内核、编译器、分布式系统,职业成长空间极大,技术迭代快

技术前沿前沿/新兴技术
技术栈GPU Kernel、HIP、CUDA、LLVM、ROCm、PyTorch、TensorFlow、HPC、Compiler
成长机会advance your career
业务类型profit_center

工作生活匹配

50较低

仅现场办公,未提及弹性工作或远程,上海通勤压力大,工作强度可能较高,WLB信号不明显

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

85较高

参与AI基础设施核心研发,推动下一代计算体验,行业前景光明,但社会价值直接感知较弱

行业发展高速增长赛道
社会影响中性/一般
使命信号build great products that accelerate next-generation computing experiences
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 40k-60k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • AI Product Performance Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-65k
  • Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-45k

相似职位推荐

  • 高级客户端开发工程师(AFK Journey)

    莉莉丝 · 上海市
    AI 估算 · 25k-40k
  • 用户增长算法工程师

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • MVA LLM Developer

    奔驰 · 北京市
    AI 估算 · 30k-60k
  • 前端开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-7k
  • Android开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-8k

超威半导体 的其他在招职位

  • Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 40k-60k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • AI Product Performance Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-65k
  • Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-45k

相似职位推荐

  • 高级客户端开发工程师(AFK Journey)

    莉莉丝 · 上海市
    AI 估算 · 25k-40k
  • 用户增长算法工程师

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • MVA LLM Developer

    奔驰 · 北京市
    AI 估算 · 30k-60k
  • 前端开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-7k
  • Android开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-8k