Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/超威半导体/AI Product Performance Engineer
AMD logo
A
超威半导体 (AMD)

职位信息

北京市
高级经验
全职员工
仅现场办公
本科
普通员工/个人贡献者

标签

GPUPyTorch性能优化LLMCUDAAI推理HIPvLLM
💡

核心评价

顶尖半导体公司的核心AI性能岗,技术前沿、成长性极佳,薪资竞争力强,但WLB信息不明。

AI Product Performance Engineer

🤖 AI 估测:¥45K-80K

发布时间:17 天前

立即应聘

ℹ️关于这个职位

这是一个专注于AI产品性能优化的工程师职位
你将负责设计和优化用于AI/ML工作负载的高性能GPU内核,以最大化硬件利用率
工作内容包括分析性能瓶颈、使用专业工具进行剖析和调优,并与软件栈团队合作,将优化后的内核集成到高级框架和推理引擎中

✓工作职责

High-Performance Kernel Development: Design, implement, and optimize high-performance GPU kernels for AI/ML workloads to maximize hardware utilization.
Performance Optimization: Analyze and optimize kernel execution for latency and throughput, addressing bottlenecks in memory bandwidth, instruction latency, and thread divergence.
Workload Analysis: Evaluate the end-to-end performance impact of individual kernels on full-stack AI models, ensuring that micro-optimizations translate to application-level speedups.
Profiling & Tuning: Utilize advanced GPU profiling tools (e.g., ROCm Profiler, Pytorch Profiler) to identify performance cliffs, stall pipelines, and memory hierarchy inefficiencies.
Architecture Adaptation: Tailor implementation strategies to leverage specific features of modern GPU architectures (e.g., Matrix Cores, HBM characteristics).
Framework Integration: Collaborate with software stack teams to expose optimized kernels within high-level frameworks and inference engines.

⭐最低要求

BS required. MS preferred with several years of relevant industry experience

👍优先资格

GPU Architecture Mastery: In-depth understanding of modern GPU underlying architectures, including streaming multiprocessors (SMs/CUs), memory hierarchy (registers, shared memory, L1/L2 cache, HBM), and warp/wavefront execution models.
Kernel Programming Expertise: Strong proficiency in C++ and parallel computing, with extensive hands-on experience in NVIDIA CUDA or AMD HIP kernel programming.
Performance Engineering: Demonstrated ability to debug and profile complex GPU workloads, interpreting low-level metrics to drive architectural-aware optimizations.
Systems Knowledge: Familiarity with asynchronous execution, stream management, and host-device memory transfers.
Python DSLs & Triton: Experience implementing kernels using OpenAI Triton or other Python-based DSLs for agile kernel development and auto-tuning.
Inference Engine Experience: Hands-on experience integrating custom kernels into large-scale inference frameworks such as vLLM , SGLang , or TensorRT-LLM .
Deep Learning Frameworks: Familiarity with writing custom extensions or operators for PyTorch (C++/CUDA extensions).
Hardware Agnosticism: Experience porting kernels between NVIDIA and AMD architectures or working with cross-platform HPC libraries.
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • Sr. Manager Systems Design Eng.

    超威半导体

    深圳市 · 仅现场办公

  • PMTS Systems Design Engineer

    超威半导体

    上海市 · 仅现场办公

  • Sr. Silicon Design Engineer

    超威半导体

    上海市 · 仅现场办公

  • Systems Design Engineer

    超威半导体

    北京市 · 仅现场办公

  • SW Solution Engineer-AI

    超威半导体

    上海市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公