Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

AMD logo
超威半导体
AI Software System Design Engineer
立即应聘

AI Software System Design Engineer

发布于 大约 16 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
软件工程
CUDA
Machine Learning
ROCm
TensorRT
vLLM
Gpu Kernel
Performance Optimization

AI 估算 · 40k–60k

高级AI工程师,AMD上海,前沿技术栈,市场竞争力强,参考行业高级工程师薪资范围。

职位详情

关于这个职位

作为AMD的AI软件系统设计工程师,你将负责机器学习端到端定制软件解决方案的开发、调试、优化和技术支持,专注于AMD服务器GPU

该职位需要深厚的GPU内核编程和AI框架经验,与顶级客户合作推动AI性能和稳定性
适合对高性能计算和AI推理/训练优化有热情的技术专家

最低要求

计算机科学、计算机工程、电气工程或相关专业的学士或硕士学位

工作职责

向顶级客户提出技术方案并提供支持

为客户PoC成功做出重要贡献
推动AI软件性能和稳定性的定制需求,包括从POC需求到POR发布,从GPU内核到框架和分发解决方案
与不同团队协作和互动,分析和优化从内核、框架到解决方案的训练和推理工作负载
分析竞争解决方案,识别优势和劣势,阐述价值主张
应用软件工程最佳实践知识

优先资格

能够独立工作,定义项目目标和范围,并领导自己的开发工作

良好的沟通能力(中英文)
在GPU内核原语(如Attention、MOE、TOPK设计)方面有出色的算法和开发能力(使用Triton/DSL、Cutlass/CK、CUDA/HIP、PTX/ASM等)
出色的Python、C++编程和软件调试及性能分析能力
具有模型推理优化流程经验(如GEMM/卷积调优、图优化、算子融合)
具有AI框架经验(如vLLM、Sglang、Megatron-LM、Deepspeed、TensorRT、TensorRT-LLM等)
编译器知识(Torch、Triton、LLVM、XLA HLO、图)为加分项
Linux ROCm/CUDA运行时及KMD/UMD驱动知识为加分项
AI分布式解决方案知识(如EP/SP/CP/TP/PP/DP、DeepEp、DualPipe、PD聚合、KV缓存传输与存储)
AI分布式网络通信知识(多GPU多节点集合通信原语NCCL/RCCL、NIC/GPU驱动、RDMA/GDR、高速网络)
Linux OS/驱动、CI和工具链(profiler/DCGM)开发和调试知识

AI 洞察

优缺点分析

优点

  • AMD作为GPU巨头,提供顶级的技术平台和资源,接触最前沿的AI硬件和软件栈
  • 工作内容涵盖从底层内核到上层框架的全栈优化,技术深度和广度兼备
  • 与全球顶级客户合作,积累高端行业人脉和实战经验
  • 技术门槛高,需要在GPU编程、分布式计算和AI框架多个领域有深厚积累
  • 工作强度可能较大,尤其是客户PoC和版本发布阶段
  • 需要与多团队(硬件、驱动、框架)紧密协作,沟通和协调能力要求高

缺点 / 挑战

  • 公司文化强调创新和协作,鼓励工程师挑战技术极限
  • 适合对GPU高性能计算充满热情、具备深厚系统编程能力、渴望在AI基础设施前沿挑战自我的资深工程师

角色解读

  • 技术方向:从GPU内核专家成长为AI系统架构师,主导大规模训练/推理系统设计
  • 管理方向:可逐步带领技术团队,担任技术负责人或团队经理
  • 行业影响:参与定义AMD GPU的AI软件生态,成为AI基础设施领域的核心贡献者
  • 负责为AMD服务器GPU开发机器学习端到端定制软件解决方案,包括内核算子(如Attention、MOE)的设计与实现
  • 与顶级客户合作,提供技术支持并推动PoC(概念验证)项目的成功
  • 从GPU内核到AI框架及分布式方案,全面优化训练和推理的性能与稳定性
  • 分析竞争对手方案,提炼技术优势以支持产品价值主张
  • 精通GPU内核编程,如Triton/DSL、CUDA/HIP、PTX/ASM,以及相关库(Cutlass/CK)
  • 扎实的C++和Python编程能力,具备调试和性能分析经验
  • 熟悉主流AI推理/训练框架(如vLLM、Megatron-LM、TensorRT-LLM)及分布式策略
  • 掌握模型优化流程(GEMM调优、图优化、算子融合)和编译器相关知识

申请策略

  • 在简历中用量化数据(如延迟降低、吞吐提升)体现具体贡献
  • 提前了解AMD ROCm生态和GPU架构(如MI300),在面试中展现对硬件的理解
  • 突出GPU内核优化项目,包括使用Triton/CUDA实现的Attention、MOE等算子的性能提升数据
  • 强调端到端AI系统优化经验,如从算子到框架的推理加速案例
  • 展示分布式训练/推理项目,说明参与的技术方案和成果
  • 提及与客户或跨团队协作的经历,体现沟通和技术推动能力
  • 复习Triton语言和CUDA最新特性,可实际编写优化内核
  • 熟悉vLLM、TensorRT-LLM等推理框架的源码和调优手段

面试指南

  • STAR法则(情境、任务、行动、结果):先描述项目背景和目标,然后说明你的技术方案和实现细节,最后用数据展示效果
  • 对比分析法:在解释技术选型时,列出不同方案的优缺点,并结合实际约束(如显存、带宽)给出推荐
  • 分层排查法:对于性能问题,从应用层到驱动层逐层分析,使用profiler定位瓶颈
  • 请详细介绍一个你优化过的GPU内核,你是如何分析和提升性能的?
  • 如何实现Flash Attention在AMD GPU上的移植?会遇到哪些挑战?
  • 在分布式训练中,如何选择并行策略(TP/PP/DP)?请结合具体场景说明
  • 你使用过哪些AI推理框架?请对比它们的性能差异和适用场景
  • 如果一个客户模型在AMD GPU上性能不佳,你如何系统地排查和优化?

匹配度报告

71
综合匹配度

AMD AI软件工程师,前沿技术栈、高成长性,现场办公且WLB一般。

适合人群
适合追求技术成长和前沿领域挑战的求职者,愿意在AI基础设施领域深耕。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展90
工作生活50
使命价值75

薪资福利匹配

70中等

AMD作为上市巨头,薪资具有竞争力,但JD未明确具体数字,推测福利完善。

薪资信号未披露(AI估算:40K-60K/月)

成长发展匹配

90较高

职位涉及AI、GPU、分布式等前沿技术,提供大量学习和成长机会,且公司文化强调创新。

技术前沿前沿/新兴技术
技术栈Triton、CUDA、Python、C++、GPU Kernel、Machine Learning、vLLM、TensorRT、ROCm、Distributed Computing
成长机会career
业务类型profit_center

工作生活匹配

50较低

仅现场办公,未提及弹性工作或WLB,可能面临较大工作强度。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

75中等

AI基础设施是高速增长赛道,工作直接影响前沿计算体验,社会意义较高。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号shape the future of AI、solve the world’s most important challenges
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • AI Framework Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Manager Software Development

    超威半导体 · 上海市
    AI 估算 · 35k-50k
  • PMTS Product Application Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • Systems Design Eng.

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • DevOps Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-40k

相似职位推荐

  • 顶尖应届-大模型训练框架研发工程师-基础技术平台

    小米 · 北京市
    AI 估算 · 25k-35k
  • 顶尖应届-智能体研究员-MiMo

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-车机OS性能优化工程师(智能平台方向)-智能座舱

    小米 · 北京市
    AI 估算 · 25k-40k
  • 顶尖应届-智能体工程师-MiMo

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-大模型算法工程师-软件

    小米 · 北京市
    AI 估算 · 20k-30k

超威半导体 的其他在招职位

  • AI Framework Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Manager Software Development

    超威半导体 · 上海市
    AI 估算 · 35k-50k
  • PMTS Product Application Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • Systems Design Eng.

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • DevOps Software Development Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-40k

相似职位推荐

  • 顶尖应届-大模型训练框架研发工程师-基础技术平台

    小米 · 北京市
    AI 估算 · 25k-35k
  • 顶尖应届-智能体研究员-MiMo

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-车机OS性能优化工程师(智能平台方向)-智能座舱

    小米 · 北京市
    AI 估算 · 25k-40k
  • 顶尖应届-智能体工程师-MiMo

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-大模型算法工程师-软件

    小米 · 北京市
    AI 估算 · 20k-30k