超威半导体的AI Product Performance Engineer薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

AI Product Performance Engineer的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

超威半导体的AI Product Performance Engineer有什么任职要求？

该职位要求本科学历及高级经验工作经验。

超威半导体

AI Product Performance Engineer

立即应聘

AI Product Performance Engineer

发布于大约 2 个月前

普通员工/个人贡献者

深圳市

高级经验

全职员工

仅现场办公

本科

软件工程

AI/ML

PyTorch

LLM

CUDA

ROCm

HIP

Gpu Architecture

Performance Optimization

AI 估算 · 30k–50k

GPU性能优化岗位稀缺，经验要求高，深圳市场竞争力强，AMD薪资水平优越。

职位详情

关于这个职位

该职位负责AI/ML工作负载的高性能GPU内核开发与优化，涉及LLM、生成式AI等前沿模型

你将使用CUDA/HIP进行内核编程，利用profiling工具分析瓶颈并提升硬件利用率，最终集成到推理框架中

适合对GPU架构有深入理解、喜欢挑战性能极限的工程师

最低要求

BS required. MS preferred with several years of relevant industry experience.

工作职责

High-Performance Kernel Development: Design, implement, and optimize high-performance GPU kernels for AI/ML workloads to maximize hardware utilization. Performance Optimization: Analyze and optimize kernel execution for latency and throughput, addressing bottlenecks in memory bandwidth, instruction latency, and thread divergence. Workload Analysis: Evaluate the end-to-end performance impact of individual kernels on full-stack AI models, ensuring that micro-optimizations translate to application-level speedups. Profiling & Tuning: Utilize advanced GPU profiling tools (e.g., ROCm Profiler, Pytorch Profiler) to identify performance cliffs, stall pipelines, and memory hierarchy inefficiencies. Architecture Adaptation: Tailor implementation strategies to leverage specific features of modern GPU architectures (e.g., Matrix Cores, HBM characteristics). Framework Integration: Collaborate with software stack teams to expose optimized kernels within high-level frameworks and inference engines.

优先资格

GPU Architecture Mastery: In-depth understanding of modern GPU underlying architectures, including streaming multiprocessors (SMs/CUs), memory hierarchy (registers, shared memory, L1/L2 cache, HBM), and warp/wavefront execution models. Kernel Programming Expertise: Strong proficiency in C++ and parallel computing, with extensive hands-on experience in NVIDIA CUDA or AMD HIP kernel programming. Performance Engineering: Demonstrated ability to debug and profile complex GPU workloads, interpreting low-level metrics to drive architectural-aware optimizations. Systems Knowledge: Familiarity with asynchronous execution, stream management, and host-device memory transfers. Python DSLs & Triton: Experience implementing kernels using OpenAI Triton or other Python-based DSLs for agile kernel development and auto-tuning. Inference Engine Experience: Hands-on experience integrating custom kernels into large-scale inference frameworks such as vLLM , SGLang , or TensorRT-LLM . Deep Learning Frameworks: Familiarity with writing custom extensions or operators for PyTorch (C++/CUDA extensions). Hardware Agnosticism: Experience porting kernels between NVIDIA and AMD architectures or working with cross-platform HPC libraries.

AI 洞察

优缺点分析

优点

站在AI芯片最前沿，深度参与LLM等热门应用的性能突破
AMD作为行业巨头，平台大、资源足，技术积累深厚
技能壁垒高，薪资竞争力强，职业发展空间广阔
技术门槛高，需精通GPU架构和并行计算，学习曲线陡峭
工作强度可能较大，性能调优常需反复迭代和深入底层
竞争激烈，同岗位候选人多来自顶尖芯片公司或实验室

缺点 / 挑战

适合对GPU架构和性能优化有浓厚热情、喜欢挑战技术难题、追求技术深度和影响力的工程师

角色解读

技术深耕：成为GPU性能优化专家，主导AI加速器内核设计，影响下一代硬件架构
架构方向：向系统架构师发展，参与芯片底层设计和性能模型构建
管理路径：可转向团队技术负责人，带领性能优化团队，制定技术路线
设计和实现高性能GPU内核，针对AI/ML模型进行极致优化
使用ROCm Profiler、Pytorch Profiler等工具分析性能瓶颈，提升计算效率
与软件栈团队合作，将优化的内核集成到PyTorch、vLLM等高层框架中
深入理解GPU架构特性（如Matrix Cores），编写架构感知的优化策略
精通C++和并行计算，熟练使用NVIDIA CUDA或AMD HIP进行内核编程
深刻理解现代GPU架构（SM/CU、内存层次、线程调度）
熟悉AI工作负载（LLM、推荐系统、NLP等）及端到端推理管线
有使用OpenAI Triton等Python DSL进行内核开发的经验优先

申请策略

详细了解AMD在AI领域的布局（如MI300系列），面试中展现对产品路线的理解
准备一个完整的性能优化案例，从问题分析到最终结果，展示系统性思维
突出GPU内核开发项目经验，量化性能提升（如延迟降低百分比、吞吐量提升）
展示对CUDA/HIP的熟练程度，包括共享内存、线程束调度等底层优化经验
强调AI模型优化案例，如LLM推理加速或端到端管线调优
提前熟悉AMD ROCm平台和HIP编程，与CUDA对比学习
深入学习GPU Profiling工具，如Nsight Compute、ROCm Profiler
动手实践OpenAI Triton，掌握Python DSL快速原型内核的能力

面试指南

使用STAR法则：情境、任务、行动、结果，结构化描述优化过程
强调量化指标和系统性思考：不仅解决问题，还分析根本原因并总结通用方法
横向对比不同方案（如CUDA vs HIP，Triton vs手工内核），展示技术视野
请描述你在GPU内核优化中遇到的一个内存带宽瓶颈，以及如何解决
解释warp/wavefront执行模型对性能的影响，给出优化示例
如何将CUDA内核移植到AMD HIP？会遇到哪些常见问题？
在LLM推理中，你如何分析和优化矩阵乘法的性能？
谈谈你对OpenAI Triton的理解，与传统CUDA相比有何优劣？

职位点评

综合评分

大厂核心岗位，前沿AI技术栈，薪资优厚，但工作强度大且需现场办公。

更适合这类人

适合追求技术成长和薪资回报、能接受一定工作强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值80

薪资福利

80较高

AMD作为上市巨头，薪资竞争力强，福利完善，但具体薪酬未披露，预估偏高。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

岗位聚焦AI前沿技术，涉及LLM、GPU架构等，技能成长空间极大，且公司鼓励创新。

技术前沿前沿/新兴技术

技术栈LLM、GPU Architecture、CUDA、HIP、ROCm、Triton、PyTorch、vLLM

业务类型ambiguous

工作生活

50较低

仅现场办公，未提及WLB，芯片行业通常工作强度较高，办公地点在深圳科技园。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

80较高

AI芯片行业高速增长，AMD在AI领域投入巨大，技术导向强，社会意义中性。

行业发展高速增长赛道

社会影响中性/一般

使命信号build great products that accelerate next-generation computing experiences

创新程度积极采用新技术

Watch Jobs

超威半导体

AI Product Performance Engineer

立即应聘

AI Product Performance Engineer

发布于大约 2 个月前

普通员工/个人贡献者

深圳市

高级经验

全职员工

仅现场办公

本科

软件工程

AI/ML

PyTorch

LLM

CUDA

ROCm

HIP

Gpu Architecture

Performance Optimization

AI 估算 · 30k–50k

GPU性能优化岗位稀缺，经验要求高，深圳市场竞争力强，AMD薪资水平优越。

职位详情

关于这个职位

该职位负责AI/ML工作负载的高性能GPU内核开发与优化，涉及LLM、生成式AI等前沿模型

你将使用CUDA/HIP进行内核编程，利用profiling工具分析瓶颈并提升硬件利用率，最终集成到推理框架中

适合对GPU架构有深入理解、喜欢挑战性能极限的工程师

最低要求

BS required. MS preferred with several years of relevant industry experience.

工作职责

优先资格

AI 洞察

优缺点分析

优点

站在AI芯片最前沿，深度参与LLM等热门应用的性能突破
AMD作为行业巨头，平台大、资源足，技术积累深厚
技能壁垒高，薪资竞争力强，职业发展空间广阔
技术门槛高，需精通GPU架构和并行计算，学习曲线陡峭
工作强度可能较大，性能调优常需反复迭代和深入底层
竞争激烈，同岗位候选人多来自顶尖芯片公司或实验室

缺点 / 挑战

适合对GPU架构和性能优化有浓厚热情、喜欢挑战技术难题、追求技术深度和影响力的工程师

角色解读

技术深耕：成为GPU性能优化专家，主导AI加速器内核设计，影响下一代硬件架构
架构方向：向系统架构师发展，参与芯片底层设计和性能模型构建
管理路径：可转向团队技术负责人，带领性能优化团队，制定技术路线
设计和实现高性能GPU内核，针对AI/ML模型进行极致优化
使用ROCm Profiler、Pytorch Profiler等工具分析性能瓶颈，提升计算效率
与软件栈团队合作，将优化的内核集成到PyTorch、vLLM等高层框架中
深入理解GPU架构特性（如Matrix Cores），编写架构感知的优化策略
精通C++和并行计算，熟练使用NVIDIA CUDA或AMD HIP进行内核编程
深刻理解现代GPU架构（SM/CU、内存层次、线程调度）
熟悉AI工作负载（LLM、推荐系统、NLP等）及端到端推理管线
有使用OpenAI Triton等Python DSL进行内核开发的经验优先

申请策略

详细了解AMD在AI领域的布局（如MI300系列），面试中展现对产品路线的理解
准备一个完整的性能优化案例，从问题分析到最终结果，展示系统性思维
突出GPU内核开发项目经验，量化性能提升（如延迟降低百分比、吞吐量提升）
展示对CUDA/HIP的熟练程度，包括共享内存、线程束调度等底层优化经验
强调AI模型优化案例，如LLM推理加速或端到端管线调优
提前熟悉AMD ROCm平台和HIP编程，与CUDA对比学习
深入学习GPU Profiling工具，如Nsight Compute、ROCm Profiler
动手实践OpenAI Triton，掌握Python DSL快速原型内核的能力

面试指南

使用STAR法则：情境、任务、行动、结果，结构化描述优化过程
强调量化指标和系统性思考：不仅解决问题，还分析根本原因并总结通用方法
横向对比不同方案（如CUDA vs HIP，Triton vs手工内核），展示技术视野
请描述你在GPU内核优化中遇到的一个内存带宽瓶颈，以及如何解决
解释warp/wavefront执行模型对性能的影响，给出优化示例
如何将CUDA内核移植到AMD HIP？会遇到哪些常见问题？
在LLM推理中，你如何分析和优化矩阵乘法的性能？
谈谈你对OpenAI Triton的理解，与传统CUDA相比有何优劣？

职位点评

综合评分

大厂核心岗位，前沿AI技术栈，薪资优厚，但工作强度大且需现场办公。

更适合这类人

适合追求技术成长和薪资回报、能接受一定工作强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值80

薪资福利

80较高

AMD作为上市巨头，薪资竞争力强，福利完善，但具体薪酬未披露，预估偏高。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

岗位聚焦AI前沿技术，涉及LLM、GPU架构等，技能成长空间极大，且公司鼓励创新。

技术前沿前沿/新兴技术

技术栈LLM、GPU Architecture、CUDA、HIP、ROCm、Triton、PyTorch、vLLM

业务类型ambiguous

工作生活

50较低

仅现场办公，未提及WLB，芯片行业通常工作强度较高，办公地点在深圳科技园。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

80较高

AI芯片行业高速增长，AMD在AI领域投入巨大，技术导向强，社会意义中性。

行业发展高速增长赛道

社会影响中性/一般

使命信号build great products that accelerate next-generation computing experiences

创新程度积极采用新技术

Watch Jobs

AI Product Performance Engineer

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

AI Product Performance Engineer

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

超威半导体 的其他在招职位

Sr. Product Marketing Manager

Commercial Sales Account Manager 1

Commercial Sales Account Manager 1

Commercial Sales Account Manager 1

Commercial Sales Account Manager 1

相似职位推荐

Assoc FrontEnd Eng, WRB Tech

高级全栈开发工程师（侧重前端）

中间件开发工程师（存储）

AI Agent Applications Engineer

AI Agent Applications Engineer

超威半导体 的其他在招职位

Sr. Product Marketing Manager

Commercial Sales Account Manager 1

Commercial Sales Account Manager 1

Commercial Sales Account Manager 1

Commercial Sales Account Manager 1

相似职位推荐

Assoc FrontEnd Eng, WRB Tech

高级全栈开发工程师（侧重前端）

中间件开发工程师（存储）

AI Agent Applications Engineer

AI Agent Applications Engineer

超威半导体的其他在招职位

超威半导体的其他在招职位