Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

AMD logo
超威半导体
AI Product Performance Engineer
立即应聘

AI Product Performance Engineer

发布于 大约 17 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
硕士
GPU
深度学习
性能优化
CUDA
ROCm
分布式训练
大模型

AI 估算 · 35k–65k

AI性能工程师稀缺,GPU优化难度高,上海大厂薪资竞争力强,预计月薪3.5-6.5万,16薪

职位详情

关于这个职位

该职位专注于在AMD GPU平台上优化大规模AI训练/强化学习/推理工作负载的性能和效率,需要深入理解GPU架构和分布式系统,通过跨软件-硬件堆栈的创新来提升系统吞吐量和利用率

适合对AI基础设施性能调优有热情的高级工程师

最低要求

计算机科学、计算机工程或相关领域的硕士或博士学位,或同等经验

工作职责

领导在AMD GPU平台上对大规模AI训练/强化学习/推理工作负载进行单节点和多节点环境的性能优化

识别并消除计算、内存和通信方面的系统瓶颈(如内核效率、内存带宽、网络利用率)
推动跨越内核、编译器、运行时、通信库和机器学习框架的跨栈优化
开发并应用先进的剖析、基准测试和性能建模方法
与硬件、编译器和框架团队合作,影响下一代GPU架构和软件栈设计
贡献并领导开源工作,以改善AMD平台上的生态系统性能
保持在大规模系统和性能优化技术方面的前沿地位

优先资格

深入了解GPU架构和性能特征(计算单元、内存层次结构、PCIe/Infinity Fabric/RDMA等互连)

丰富的性能剖析工具使用经验(如ROCm工具、Nsight-like系统、自定义剖析器)和瓶颈分析能力
在数千个GPU上优化大规模分布式训练工作负载的 proven experience
熟悉Megatron-LM、Torchtitan、vLLM、Sglang等框架或同等技术
深入理解通信库和模式(如NCCL/RCCL、集合通信、计算与通信重叠)
精通Python和至少一种系统语言(C++/CUDA/HIP),包括调试和底层优化
具有编译器栈、内核优化或图级优化经验者优先
具有技术领导力和跨职能团队影响力

AI 洞察

优缺点分析

  • 站在AI基础设施性能优化的前沿,接触最先进的GPU技术和大规模分布式系统
  • AMD作为GPU领域的重要玩家,平台资源丰富,有大量实际问题可实践
  • 职位技术深度高,积累的经验在AI和芯片行业极具竞争力,薪资和成长空间大
  • 工作强度较大,需要同时关注软件和硬件多个层面,技术栈深广
  • 需要很强的独立分析和解决问题能力,团队协作中可能面临跨部门沟通挑战
  • 适合对GPU底层架构和性能调优有浓厚兴趣,喜欢解决复杂系统问题的资深工程师

角色解读

  • 可向AI系统架构师方向发展,主导GPU性能优化策略和下一代架构设计
  • 也可深入编译器或分布式框架领域,成为跨栈性能优化专家
  • 在AMD这样的国际大厂,有机会参与开源社区和行业标准制定,提升影响力
  • 负责在AMD GPU上优化大规模AI训练、强化学习和推理的性能,提升系统吞吐量和效率
  • 进行跨栈性能分析,识别计算、内存、通信等瓶颈,并推动内核、编译器、通信库等多层优化
  • 与硬件、编译器及框架团队协作,影响下一代GPU架构和软件栈的设计方向
  • 精通GPU架构和性能特征,熟练使用ROCm等性能剖析工具进行瓶颈分析
  • 扎实的分布式系统知识,有大规模(数千GPU)分布式训练优化经验
  • 熟练掌握Python和C++/CUDA/HIP,具备底层优化和调试能力,了解编译器或图优化更佳

申请策略

  • 申请时关注AMD的AI战略和产品路线图,表现出对公司技术方向的认同
  • 准备好展示你在大规模分布式系统优化中的系统思维和成果
  • 突出在GPU性能优化、分布式训练加速方面的具体项目成果,最好有量化数据(如吞吐量提升百分比)
  • 强调对AMD GPU或类似平台(如NVIDIA CUDA)的深入理解,以及使用ROCm等工具的经验
  • 展示参与开源项目或技术社区贡献的经历,体现影响力
  • 深入学习AMD ROCm软件栈和Infinity Fabric互连技术
  • 补充对Megatron-LM、vLLM等大模型训练推理框架的理解
  • 练习系统级性能调优的方法论,如使用perf、nsys等工具

面试指南

  • 采用STAR方法:先描述场景(Situation)、任务(Task)、行动(Action)、结果(Result),突出量化效果
  • 系统性思考:从整体架构出发,先识别瓶颈,再逐层深入(硬件-内核-通信-框架),展示方法论
  • 如何诊断大规模分布式训练中的通信瓶颈?请举例说明你解决过的问题
  • 对于AMD GPU平台,你如何优化一个具体的AI模型(如LLM)的训练性能?
  • 比较NVIDIA NCCL和AMD RCCL的异同,如何针对AMD平台进行通信优化?
  • 在一个多节点环境中,如何平衡计算和通信开销以提高总体吞吐量?
  • 复习GPU架构知识,特别是AMD CDNA架构和ROCm软件栈
  • 准备2-3个深度性能优化案例,包括问题和解决方案,最好有数据支撑

匹配度报告

72
综合匹配度

技术前沿、薪资优厚的大厂AI性能工程师岗,但WLB不明确且可能压力较大。

适合人群
最适合重视技术成长和前沿领域探索的求职者,对工作生活平衡要求较高者需谨慎考虑。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活45
使命价值80

薪资福利匹配

75中等

薪资未在JD中明确,但AMD作为上市公司大厂,薪酬体系完善,预期薪资竞争力强,福利可能包括股票、医疗保险等。

薪资信号未披露 (35K-65K/月)

成长发展匹配

90较高

该职位聚焦AI性能和GPU架构前沿技术,有大量学习和成长机会,且鼓励开源贡献和技术影响力。

技术前沿前沿/新兴技术
技术栈GPU、AI、分布式训练、ROCm、CUDA、Megatron-LM、vLLM
成长机会advance your career
业务类型ambiguous

工作生活匹配

45较低

JD未提及远程或弹性工作,工作地点在上海,但未说明具体区位,且可能面临较大工作强度和加班。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

80较高

AI是高速增长赛道,AMD致力于推动计算创新,职位对社会有积极影响,但使命信号一般。

行业发展高速增长赛道
社会影响中性/一般
使命信号shape the future of AI
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-45k
  • Sr. Manager Systems Design Eng.

    超威半导体 · 深圳市
    AI 估算 · 60k-90k
  • PMTS Systems Design Engineer

    超威半导体 · 上海市
    AI 估算 · 40k-60k
  • Sr. Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Systems Design Engineer

    超威半导体 · 北京市
    AI 估算 · 35k-60k

相似职位推荐

  • 后台开发工程师

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 后端开发工程师(全栈开发岗)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • 高级网络库SDK开发工程师

    快手 · 北京市
    AI 估算 · 35k-60k
  • 后端开发工程师——沈阳

    中国平安 · 沈阳市
    AI 估算 · 20k-35k
  • Java开发工程师

    中国平安 · 西宁市
    AI 估算 · 8k-15k

超威半导体 的其他在招职位

  • Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-45k
  • Sr. Manager Systems Design Eng.

    超威半导体 · 深圳市
    AI 估算 · 60k-90k
  • PMTS Systems Design Engineer

    超威半导体 · 上海市
    AI 估算 · 40k-60k
  • Sr. Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Systems Design Engineer

    超威半导体 · 北京市
    AI 估算 · 35k-60k

相似职位推荐

  • 后台开发工程师

    中国平安 · 深圳市
    AI 估算 · 25k-40k
  • 后端开发工程师(全栈开发岗)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • 高级网络库SDK开发工程师

    快手 · 北京市
    AI 估算 · 35k-60k
  • 后端开发工程师——沈阳

    中国平安 · 沈阳市
    AI 估算 · 20k-35k
  • Java开发工程师

    中国平安 · 西宁市
    AI 估算 · 8k-15k