AMD logo
超威半导体
AI Product Performance Engineer

AI Product Performance Engineer

发布于 大约 18 小时前

普通员工/个人贡献者

深圳市
高级经验
全职员工
仅现场办公
本科
AI/ML
PyTorch
LLM
CUDA
ROCm
HIP
Gpu Architecture
Performance Optimization

AI 估算 · 30k–50k

GPU性能优化岗位稀缺,经验要求高,深圳市场竞争力强,AMD薪资水平优越。

职位详情

关于这个职位

该职位负责AI/ML工作负载的高性能GPU内核开发与优化,涉及LLM、生成式AI等前沿模型

你将使用CUDA/HIP进行内核编程,利用profiling工具分析瓶颈并提升硬件利用率,最终集成到推理框架中
适合对GPU架构有深入理解、喜欢挑战性能极限的工程师

最低要求

BS required. MS preferred with several years of relevant industry experience.

工作职责

High-Performance Kernel Development: Design, implement, and optimize high-performance GPU kernels for AI/ML workloads to maximize hardware utilization. Performance Optimization: Analyze and optimize kernel execution for latency and throughput, addressing bottlenecks in memory bandwidth, instruction latency, and thread divergence. Workload Analysis: Evaluate the end-to-end performance impact of individual kernels on full-stack AI models, ensuring that micro-optimizations translate to application-level speedups. Profiling & Tuning: Utilize advanced GPU profiling tools (e.g., ROCm Profiler, Pytorch Profiler) to identify performance cliffs, stall pipelines, and memory hierarchy inefficiencies. Architecture Adaptation: Tailor implementation strategies to leverage specific features of modern GPU architectures (e.g., Matrix Cores, HBM characteristics). Framework Integration: Collaborate with software stack teams to expose optimized kernels within high-level frameworks and inference engines.

优先资格

GPU Architecture Mastery: In-depth understanding of modern GPU underlying architectures, including streaming multiprocessors (SMs/CUs), memory hierarchy (registers, shared memory, L1/L2 cache, HBM), and warp/wavefront execution models. Kernel Programming Expertise: Strong proficiency in C++ and parallel computing, with extensive hands-on experience in NVIDIA CUDA or AMD HIP kernel programming. Performance Engineering: Demonstrated ability to debug and profile complex GPU workloads, interpreting low-level metrics to drive architectural-aware optimizations. Systems Knowledge: Familiarity with asynchronous execution, stream management, and host-device memory transfers. Python DSLs & Triton: Experience implementing kernels using OpenAI Triton or other Python-based DSLs for agile kernel development and auto-tuning. Inference Engine Experience: Hands-on experience integrating custom kernels into large-scale inference frameworks such as vLLM , SGLang , or TensorRT-LLM . Deep Learning Frameworks: Familiarity with writing custom extensions or operators for PyTorch (C++/CUDA extensions). Hardware Agnosticism: Experience porting kernels between NVIDIA and AMD architectures or working with cross-platform HPC libraries.

AI 洞察

优缺点分析

优点

  • 站在AI芯片最前沿,深度参与LLM等热门应用的性能突破
  • AMD作为行业巨头,平台大、资源足,技术积累深厚
  • 技能壁垒高,薪资竞争力强,职业发展空间广阔
  • 技术门槛高,需精通GPU架构和并行计算,学习曲线陡峭
  • 工作强度可能较大,性能调优常需反复迭代和深入底层
  • 竞争激烈,同岗位候选人多来自顶尖芯片公司或实验室

缺点 / 挑战

  • 适合对GPU架构和性能优化有浓厚热情、喜欢挑战技术难题、追求技术深度和影响力的工程师

角色解读

  • 技术深耕:成为GPU性能优化专家,主导AI加速器内核设计,影响下一代硬件架构
  • 架构方向:向系统架构师发展,参与芯片底层设计和性能模型构建
  • 管理路径:可转向团队技术负责人,带领性能优化团队,制定技术路线
  • 设计和实现高性能GPU内核,针对AI/ML模型进行极致优化
  • 使用ROCm Profiler、Pytorch Profiler等工具分析性能瓶颈,提升计算效率
  • 与软件栈团队合作,将优化的内核集成到PyTorch、vLLM等高层框架中
  • 深入理解GPU架构特性(如Matrix Cores),编写架构感知的优化策略
  • 精通C++和并行计算,熟练使用NVIDIA CUDA或AMD HIP进行内核编程
  • 深刻理解现代GPU架构(SM/CU、内存层次、线程调度)
  • 熟悉AI工作负载(LLM、推荐系统、NLP等)及端到端推理管线
  • 有使用OpenAI Triton等Python DSL进行内核开发的经验优先

申请策略

  • 详细了解AMD在AI领域的布局(如MI300系列),面试中展现对产品路线的理解
  • 准备一个完整的性能优化案例,从问题分析到最终结果,展示系统性思维
  • 突出GPU内核开发项目经验,量化性能提升(如延迟降低百分比、吞吐量提升)
  • 展示对CUDA/HIP的熟练程度,包括共享内存、线程束调度等底层优化经验
  • 强调AI模型优化案例,如LLM推理加速或端到端管线调优
  • 提前熟悉AMD ROCm平台和HIP编程,与CUDA对比学习
  • 深入学习GPU Profiling工具,如Nsight Compute、ROCm Profiler
  • 动手实践OpenAI Triton,掌握Python DSL快速原型内核的能力

面试指南

  • 使用STAR法则:情境、任务、行动、结果,结构化描述优化过程
  • 强调量化指标和系统性思考:不仅解决问题,还分析根本原因并总结通用方法
  • 横向对比不同方案(如CUDA vs HIP,Triton vs手工内核),展示技术视野
  • 请描述你在GPU内核优化中遇到的一个内存带宽瓶颈,以及如何解决
  • 解释warp/wavefront执行模型对性能的影响,给出优化示例
  • 如何将CUDA内核移植到AMD HIP?会遇到哪些常见问题?
  • 在LLM推理中,你如何分析和优化矩阵乘法的性能?
  • 谈谈你对OpenAI Triton的理解,与传统CUDA相比有何优劣?

匹配度报告

75
综合匹配度

大厂核心岗位,前沿AI技术栈,薪资优厚,但工作强度大且需现场办公。

适合人群
适合追求技术成长和薪资回报、能接受一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活50
使命价值80

薪资福利匹配

80较高

AMD作为上市巨头,薪资竞争力强,福利完善,但具体薪酬未披露,预估偏高。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

90较高

岗位聚焦AI前沿技术,涉及LLM、GPU架构等,技能成长空间极大,且公司鼓励创新。

技术前沿前沿/新兴技术
技术栈LLM、GPU Architecture、CUDA、HIP、ROCm、Triton、PyTorch、vLLM
业务类型ambiguous

工作生活匹配

50较低

仅现场办公,未提及WLB,芯片行业通常工作强度较高,办公地点在深圳科技园。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

80较高

AI芯片行业高速增长,AMD在AI领域投入巨大,技术导向强,社会意义中性。

行业发展高速增长赛道
社会影响中性/一般
使命信号build great products that accelerate next-generation computing experiences
创新程度积极采用新技术
Watch Jobs