Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

AMD logo
超威半导体
AI Software System Designer(GPU Kernel)
立即应聘

AI Software System Designer(GPU Kernel)

发布于 1 天前

普通员工/个人贡献者

上海市
专家级经验
全职员工
仅现场办公
硕士
CUDA
Machine Learning
HIP
vLLM
TensorRT-LLM
Gpu Kernel
Ai Framework

AI 估算 · 50k–80k

GPU Kernel专家稀缺,AMD作为AI芯片巨头薪资竞争力强,结合上海高级技术岗位市场水平估算。

职位详情

关于这个职位

加入AMD,你将参与设计并优化GPU Kernel,为AI训练与推理提供高性能软件解决方案

工作涉及从底层算子开发(如MHA、MOE)到框架集成(如vLLM、TensorRT-LLM),并与顶级客户合作推动PoC项目
适合在GPU计算、并行编程和AI框架方面有深厚积累的专家

最低要求

THE PERSON: Success in this role requires expert knowledge in machine learning areas such as kernel operators (like MHA, MLA, MOE etc.) by program languages (like Triton/DSL, cuda/hip, PTX/ASM etc.) and some development libraries (like cutlass/CK etc.), frameworks, distributions, compilers, performance optimizations for inference or training, along with strong programming skills in C++ and Python. Candidates must also have hands-on experience with industry AI use scenarios and solutions, end-to-end pipelines, frameworks or SDKs, parallel programming, and having strong debugging and development skillsets.

ACADEMIC CREDENTIALS: Bachelor’s or Master's degree in Computer Science, Computer Engineering, Electrical Engineering, or equivalent.

工作职责

KEY RESPONSIBILITIES:

Position technical proposals and support to top customers.
Provide significant contribution to customer PoC success.
Drive custom requirements for AI SW performance and stability, including from POC requirement to POR release, from GPU kernel to frameworks and distribution solutions.
Collaborate and interact with different teams to analyze and optimize training and inference workloads from kernels, frameworks to solutions.
Analyze competitive solutions to identify strength and weakness for articulate value propositions.
Apply your knowledge of software engineering best practices.

优先资格

PREFERRED EXPERIENCE: Ability to work independently, define project goals and scope, and lead your own development effort. Solid communication skills, in both English and mandarin. Excellent in GPU kernel primitive like Attention (FA, PA, MLA, linear Attn etc.), MOE, TOPK design (algorithms) and development (with Triton/DSL, Cutlass/CK, CUDA/HIP, PTX/ASM etc.). Excellent programming skills in Python, C++ and software skills, including debugging and performance analysis. Experiences with model inference optimization process like GEMM/convolution tuning, graph optimization and operator fusion. Experiences with AI frameworks(e.g. vLLM, Sglang, Megatron-LM, Deepspeed, TensorRT, TensorRT-LLM etc.). Knowledge of compiler (Torch, Triton, LLVM, XLA HLO, graph) is a plus. Knowledge of Linux ROCm/CUDA runtime and KMD/UMD driver is a plus. Knowledge of AI distribution solutions (i.e. EP/SP/CP/TP/PP/DP, DeepEp, DualPipe, PD aggregation etc., KV cache transfer and storage). Knowledge of AI distributed network communication with multi-GPU and multi-node collective communication primitives (NCCL/RCCL), NIC/GPU drivers for RDMA/GDR and high-speed network etc. Knowledge of Linux OS/driver, CI and toolchain (profiler/DCGM) development and debugging.

AI 洞察

优缺点分析

优点

  • AMD在AI芯片市场快速崛起,GPU Kernel岗位处于核心技术前沿,技能极具市场价值
  • 接触顶级客户和前沿AI模型,参与从底层到应用层的全链路优化,技术视野开阔
  • 公司文化鼓励创新,提供丰富的学习资源和内部技术分享平台
  • 技术深度要求极高,需要同时掌握底层硬件、编译器和框架,学习曲线陡峭
  • 工作强度可能较大,尤其在PoC关键期和产品发布周期,需要抗压能力
  • 岗位面向高端人才,竞争激烈,需要持续保持技术领先
  • 适合对GPU计算有深厚热情、喜欢解决底层性能难题、追求技术极致的高阶工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 技术专家路线:深耕GPU Kernel和AI加速,成为AMD内部核心算子库的架构师
  • 架构师路线:扩展系统视野,参与AI硬件与软件协同设计,影响下一代GPU架构
  • 管理路线:带领团队攻克技术难题,晋升为技术经理或总监
  • 负责设计并优化GPU底层Kernel算子,如Attention、MOE等,提升AI训练与推理性能
  • 与顶级客户合作,提供技术方案并推动概念验证(PoC)项目成功落地
  • 参与从GPU Kernel到AI框架(如vLLM、TensorRT-LLM)的全栈性能优化
  • 分析竞品解决方案,提炼AMD产品的优势卖点
  • 精通GPU Kernel开发,熟练使用Triton/DSL、CUDA/HIP、PTX/ASM等编程语言
  • 扎实的C++和Python编程能力,具备调试和性能分析经验
  • 深入理解机器学习算子(如MHA、MOE),熟悉AI推理优化技术(如GEMM调优、算子融合)
  • 熟悉主流AI框架(vLLM、Megatron-LM、DeepSpeed等)和分布式解决方案(TP/PP/DP等)

申请策略

  • 在简历和面试中强调对AI硬件加速的理解,展现从算法到硬件的系统思考
  • 关注AMD的AI战略和最新产品(如MI300系列),在面试中体现对公司的了解
  • 突出GPU Kernel开发项目经验,尤其是使用Triton/CUDA实现Attention、MOE等算子的案例
  • 强调性能优化成果,如算子加速比、内存优化等量化数据
  • 展示对AI框架(vLLM、TensorRT-LLM等)的贡献或深度使用经验
  • 提及分布式训练/推理相关的实践,如TP/PP/DP等方案
  • 巩固CUDA/HIP底层编程,练习PTX/ASM汇编写法
  • 学习主流AI推理框架vLLM和TensorRT-LLM的源码,理解其Kernel调用逻辑

面试指南

  • 技术问题采用STAR法则(情境-任务-行动-结果),量化成果
  • 对于系统设计问题,先明确目标约束(性能、显存、延迟等),再逐步拆解方案
  • 比较性问题(如Triton vs CUDA)需全面分析技术原理,体现辩证思维
  • 请详细描述你优化过的一个GPU Kernel,包括算法选择、优化策略和最终性能提升
  • 如何实现Flash Attention?请从算法和GPU实现两个层面讲解
  • 在分布式训练中,如何平衡计算与通信?PP和DP的优缺点分别是什么?
  • 请解释Triton DSL相比CUDA的优劣势,并举例说明适用场景
  • 如果模型推理遇到显存不足,你会从哪些方面尝试优化?

匹配度报告

76
综合匹配度

AI芯片巨头核心岗位,前沿GPU Kernel技术,高成长高回报,WLB一般。

适合人群
最适合追求技术成长和前沿创新的求职者,如果重视工作生活平衡则需考虑。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活50
使命价值80

薪资福利匹配

85较高

AMD作为上市跨国巨头,薪资福利具有竞争力,但JD未披露具体数字,按行业惯例属于市场偏上水平。

薪资信号未披露(AI估算:50K-80K/月)
福利待遇AMD benefits at a glance

成长发展匹配

90较高

岗位涉及最前沿的GPU Kernel技术和AI加速,成长空间极大,但JD未明确提及晋升路径。

技术前沿前沿/新兴技术
技术栈GPU Kernel、CUDA、HIP、Triton、AI Framework、vLLM、TensorRT-LLM、Distributed Training
业务类型profit_center

工作生活匹配

50较低

上海现场办公,JD未提及弹性工作或WLB信息,推测为常规办公模式,通勤可能较长。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

80较高

AMD致力于加速AI计算,岗位直接贡献于下一代计算体验,使命感强,但JD中未明确社会影响表述。

行业发展高速增长赛道
社会影响中性/一般
使命信号accelerate next-generation computing experiences、shape the future of AI
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • Power Management Firmware Feature Tuning Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • Linux Platform Engineer – Ryzen™ AI & ROCm Client Enablement

    超威半导体 · 上海市
    AI 估算 · 20k-35k
  • Linux Platform Engineer – Ryzen™ AI & ROCm Client Enablement

    超威半导体 · 上海市
    AI 估算 · 25k-40k
  • Linux Platform Engineer – Ryzen™ AI & ROCm Client Enablement

    超威半导体 · 上海市
    AI 估算 · 18k-35k
  • Platform Validation Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • Solution Architect Mechanics & Release Management

    大众汽车 · 合肥市
    AI 估算 · 20k-35k
  • JAVA后端开发工程师(语音)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • GPU调度研发工程师/专家

    小红书 · 北京市
    AI 估算 · 30k-55k
  • 北京-数据中台研发工程师(J86157)

    百度 · 北京市
    AI 估算 · 20k-35k
  • 中级嵌入式软件开发工程师

    科大讯飞 · 合肥市
    AI 估算 · 15k-25k

超威半导体 的其他在招职位

  • Power Management Firmware Feature Tuning Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • Linux Platform Engineer – Ryzen™ AI & ROCm Client Enablement

    超威半导体 · 上海市
    AI 估算 · 20k-35k
  • Linux Platform Engineer – Ryzen™ AI & ROCm Client Enablement

    超威半导体 · 上海市
    AI 估算 · 25k-40k
  • Linux Platform Engineer – Ryzen™ AI & ROCm Client Enablement

    超威半导体 · 上海市
    AI 估算 · 18k-35k
  • Platform Validation Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-45k

相似职位推荐

  • Solution Architect Mechanics & Release Management

    大众汽车 · 合肥市
    AI 估算 · 20k-35k
  • JAVA后端开发工程师(语音)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • GPU调度研发工程师/专家

    小红书 · 北京市
    AI 估算 · 30k-55k
  • 北京-数据中台研发工程师(J86157)

    百度 · 北京市
    AI 估算 · 20k-35k
  • 中级嵌入式软件开发工程师

    科大讯飞 · 合肥市
    AI 估算 · 15k-25k