Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

AMD logo
超威半导体
Software Development Engineer
立即应聘

Software Development Engineer

发布于 大约 13 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
硕士
分布式计算
PyTorch
TensorFlow
GPU优化
深度学习框架
CUDA
HIP
AMD ROCm

AI 估算 · 40k–60k

GPU优化方向人才稀缺,上海高级工程师薪资水平较高,AMD上市大厂薪酬竞争力强。

职位详情

关于这个职位

加入AMD上海,你将专注于优化TensorFlow和PyTorch等深度学习框架在AMD GPU上的性能,开发和调优GPU内核,并参与多GPU、多节点分布式计算环境的性能优化

需要深厚的C++/Python功底和GPU编程经验,适合追求技术深度的资深工程师

最低要求

计算机科学、计算机工程、电气工程或相关领域硕士学位

年以上技术软件开发专业经验,专注于GPU优化、性能工程和框架开发

工作职责

优化深度学习框架:在开源仓库中增强和优化TensorFlow和PyTorch等框架在AMD GPU上的性能

开发GPU内核:创建并优化GPU内核以最大化特定AI操作的性能
开发与优化模型:针对AMD GPU性能设计和优化深度学习模型
与GPU库团队协作:与内部团队紧密合作,分析和提升AMD GPU上的训练和推理性能
与开源维护者协作:与框架维护者沟通,确保代码变更符合要求并向上游集成
在分布式计算环境中工作:优化scale-up(多GPU)和scale-out(多节点)系统上的深度学习性能
利用尖端编译技术:采用先进编译技术提升深度学习性能
优化深度学习流水线:增强完整流水线,包括集成图编译器
软件工程最佳实践:应用稳健的工程原则确保可维护的解决方案
指导与引领:通过代码审查、知识分享和技术指导为初级成员提供指导

优先资格

GPU内核开发与优化:在AMD GPU上使用HIP、CUDA、ASM设计和优化深度学习GPU内核的丰富经验

熟悉AMD架构(GCN、RDNA)及底层编程
使用Compute Kernel (CK)、CUTLASS、Triton等工具的经验
深度学习集成:将优化后的GPU性能集成到机器学习框架(如TensorFlow、PyTorch)以加速训练和推理的经验,关注扩展性和吞吐量
软件工程:Python和C++专家级技能,具备调试、性能调优和测试设计经验
高性能计算:在异构计算集群上运行大规模工作负载的经验,优化效率和可扩展性
编译器优化:对编译器理论和工具(如LLVM、ROCm)有深入理解,用于内核和系统性能优化

AI 洞察

优缺点分析

优点

  • 技术深度高:专注于GPU底层优化,掌握编译器、架构、框架集成等硬核技能,是AI基础设施的核心方向
  • 平台优势:AMD是GPU和AI芯片的主要玩家,参与开源社区贡献,提升行业影响力
  • 职业前景好:随着AI算力需求爆发,GPU优化领域人才稀缺,薪资和职业发展空间大
  • 团队氛围:强调创新和协作,有机会与全球顶尖工程师交流,学习先进方法
  • 技术门槛高:需要同时掌握多种GPU编程模型、深度学习框架和编译器知识,学习曲线陡峭
  • 竞争激烈:岗位要求硕士5年以上经验,候选人多来自顶级企业和高校,面试难度大
  • 适合具备扎实GPU编程和深度学习优化经验、热爱底层技术、乐于解决复杂性能问题的高级工程师,尤其对AMD架构或ROCm生态有兴趣者

缺点 / 挑战

  • 工作强度大:参与多个项目并行,可能需要应对开源社区快速迭代和高性能要求的压力

角色解读

  • 技术专家路线:从GPU内核开发向深度学习编译器、AI架构师方向发展,成为AMD GPU生态的技术权威
  • 技术管理路线:积累项目经验后,可向技术主管、工程经理等岗位晋升,领导团队进行技术攻关
  • 跨界发展:积累GPU优化经验后,可转向AI芯片设计、高性能计算、自动驾驶等新兴领域
  • 负责优化TensorFlow、PyTorch等深度学习框架在AMD GPU上的性能,包括修改框架代码、开发自定义算子
  • 编写和调优GPU内核(使用HIP/CUDA/ASM),针对AI操作如卷积、矩阵乘法等提升速度和效率
  • 参与多GPU和多节点的分布式训练/推理优化,协调内部GPU库团队和开源社区的上游集成
  • 应用LLVM等编译器技术以及ROCm平台优化深度学习流水线,提升整体计算效率
  • 精通C++和Python,具有扎实的Linux开发环境和调试、性能调优经验
  • 深厚的GPU编程经验,熟悉AMD GPU架构(GCN/RDNA)以及HIP、CUDA等工具
  • 熟悉深度学习框架(TensorFlow/PyTorch)的内部机制和集成方法
  • 了解分布式计算和异构计算集群,具备处理大规模工作负载的能力

申请策略

  • 在申请前了解AMD最新的GPU产品(如MI系列)和ROCm更新,面试中展示你对公司技术方向的关注
  • 准备一份针对AMD GPU的优化项目案例,最好有基准测试对比,体现你的动手能力和系统性思维
  • 突出GPU内核优化项目:列出具体性能提升指标(如吞吐量提升百分比、延迟降低等),使用HIP或CUDA的实例
  • 强调深度学习框架集成经验:如为PyTorch或TensorFlow贡献过代码或优化过模型训练流程
  • 展示高性能计算相关背景:包括多GPU训练、分布式系统、大模型部署等经验
  • 列出与AMD相关的技术栈:如ROCm、HIP、MIOpen等,即使只有自学项目也要体现
  • 系统学习AMD GPU架构和ROCm工具链,可以阅读官方文档和开源项目源码
  • 熟悉LLVM编译器框架和代码生成技术,有助于理解编译器优化在深度学习中的角色

面试指南

  • 技术问题回答结构:先阐明问题背景,然后描述自己的方案或思路,最后给出量化结果或预期效果
  • 开放式问题:采用STAR法则(情境-任务-行动-结果),清晰展示你的贡献和思考过程
  • 比较类问题:从架构、生态、工具链等维度客观对比,体现你的知识广度
  • 请描述一次你优化GPU内核性能的经历,使用了哪些工具和方法?如何验证优化效果?
  • TensorFlow或PyTorch中,如何将一个自定义算子集成到框架并支持自动求导?
  • 在多GPU训练中,如何解决数据并行中的负载均衡和通信瓶颈?
  • 请解释一下AMD ROCm平台和NVIDIA CUDA的主要区别,以及你对HIP的理解
  • 如果让你在AMD GPU上优化一个Transformer模型,你会从哪些方面入手?

匹配度报告

76
综合匹配度

上市大厂、顶级GPU优化岗位、前沿技术栈、现场办公、发展空间极大

适合人群
最适合发展型动机强烈的求职者,追求技术深度和前沿方向,能接受现场办公和可能的不确定工作节奏。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活45
使命价值80

薪资福利匹配

85较高

AMD作为上市巨头,薪资水平在上海具备竞争力,GPU优化岗位属于高薪方向,但JD未披露具体薪资和福利,推测整体待遇优厚。

薪资信号未披露(AI估算:40K-60K/月)

成长发展匹配

95较高

该岗位涉及GPU底层优化、深度学习框架集成、编译器技术等前沿领域,且明确提及指导初级成员和开源贡献,技能成长空间极大。

技术前沿前沿/新兴技术
技术栈GPU优化、深度学习、TensorFlow、PyTorch、HIP、CUDA、ROCm、LLVM、分布式计算
成长机会Mentor and Guide
业务类型profit_center

工作生活匹配

45较低

仅说明工作地点在上海现场办公,未提及弹性工作或远程选项,典型大厂办公室模式,WLB信息不明。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

80较高

AMD致力于加速AI和计算体验,属于高速增长的高科技赛道,对社会计算能力提升有直接贡献,但JD未强调社会使命。

行业发展高速增长赛道
社会影响中性/一般
使命信号build great products that accelerate next-generation computing experiences
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • GPU Kernel Development Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • AI Product Performance Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-65k
  • Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-45k

相似职位推荐

  • 高级客户端开发工程师(AFK Journey)

    莉莉丝 · 上海市
    AI 估算 · 25k-40k
  • 用户增长算法工程师

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • MVA LLM Developer

    奔驰 · 北京市
    AI 估算 · 30k-60k
  • 前端开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-7k
  • Android开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-8k

超威半导体 的其他在招职位

  • GPU Kernel Development Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • AI Product Performance Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-65k
  • Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-45k

相似职位推荐

  • 高级客户端开发工程师(AFK Journey)

    莉莉丝 · 上海市
    AI 估算 · 25k-40k
  • 用户增长算法工程师

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • MVA LLM Developer

    奔驰 · 北京市
    AI 估算 · 30k-60k
  • 前端开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-7k
  • Android开发实习生(27届)

    知乎 · 北京市
    AI 估算 · 4k-8k