Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

AMD logo
超威半导体
AI Framework Eng.
立即应聘

AI Framework Eng.

发布于 1 天前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
软件工程
GPU
PyTorch
LLM
多模态
CUDA
ROCm
HIP
SGLang
vLLM

AI 估算 · 35k–60k

AI框架工程师岗位技术要求高,涉及LLM和GPU优化,市场竞争激烈,且AMD为国际大厂,薪资水平较高。

职位详情

关于这个职位

该职位主要负责构建高效、稳健的软件组件,支持大型语言模型和多模态模型在多GPU系统上的高性能推理

你将与内部GPU库团队及开源社区协作,优化推理框架(如PyTorch、vLLM、SGLang),并深入理解模型架构(如Llama、Qwen-VL)以实施针对性优化
适合对AI推理系统有浓厚兴趣、希望深入到算力和模型底层优化的软件工程师

最低要求

软件工程技能:熟悉Python,了解C++或异步编程者优先

理解LLM或多模态模型概念:了解Transformer架构、注意力机制、视觉-语言对齐及推理管线(如图像+文本输入处理)
具备Transformer/Attention/MoE/KV Cache及量化(FP8/FP4)理论基础
Linux开发环境:熟练使用命令行工具、Git及标准调试/性能分析工具
端到端LLM性能工程:具备在多GPU和多节点环境下分析计算、内存和通信瓶颈的经验
软件工程卓越与社区贡献(加分):扎实的Python/C++编码技能,调试和测试实践,有交付可维护的高性能软件的能力,以及开源贡献记录
GPU内核开发与优化(加分):了解使用HIP、CUDA、ASM及CK、CUTLASS、Triton等工具为AMD GPU调优高性能内核
编译器与系统级优化(加分):了解LLVM、ROCm及编译器驱动技术以提升内核和系统性能
模型架构与优化专业知识:熟悉多模态模型(如Qwen-VL、Qwen-Image-Edit、Wan)或基于扩散的生成模型
开发技能:接触过GPU计算(ROCm、CUDA)或性能分析工具(如PyTorch Profiler)
分布式系统经验:有大规模模型分布式推理经验(如Tensor Parallel、Pipeline Parallel)

工作职责

深度学习与LLM框架优化*:优化主流DL/LLM框架(PyTorch、vLLM、SGLang)以适配AMD GPU,并将改进贡献至上游

模型感知实现*:构建与LLM和多模态架构(如Llama、Qwen-VL、Wan)紧密交互的功能,需理解注意力机制、跨模态融合、KV缓存和量化
性能意识编码*:编写高效可扩展代码,考虑多GPU环境下的内存使用、并发和瓶颈
性能分析*:使用分析工具评估变更影响,识别回归,验证性能提升
端到端性能工程*:进行全面的性能分析,识别瓶颈,并在多GPU和多节点设置中实现系统、内存和通信优化
编译器与流水线加速*:利用编译器技术和图编译器增强整个深度学习推理流水线
研究与高级技术*:将新兴优化方法(如推测解码、仅权重量化)原型化并集成到生产系统
跨团队与开源协作*:与内部GPU库团队和开源维护者协作,确保改进和上游集成顺畅
软件工程卓越*:应用稳健工程实践,交付可维护、可靠、生产质量的性能优化

优先资格

学士学位:计算机科学、计算机工程、电机工程或相关领域

AI 洞察

优缺点分析

优点

  • 深度接触前沿AI大模型和GPU优化技术,技术成长快,长期竞争力强
  • AMD作为GPU大厂,平台和资源优秀,有机会与全球顶尖工程师协作并贡献开源社区
  • 职位涉及全栈AI推理,从模型框架到硬件底层,视野开阔
  • 技术要求高,需要同时掌握模型架构、GPU编程和分布式系统,学习曲线陡峭
  • 需与多团队协作并推动开源PR,沟通和项目管理能力同样重要
  • 适合对AI系统底层有强烈兴趣、喜欢钻研性能优化、具备较强编程能力和深度学习理论基础的软件工程师

缺点 / 挑战

  • 性能优化工作往往需要反复迭代和细致调优,对耐心和坚持有较高要求

角色解读

  • 技术深潜:从框架优化逐步深入到GPU内核开发、编译器优化,成为AI系统性能专家
  • 领域拓展:可横向扩展至训练系统优化、新型AI架构(如MoE、多模态)支持
  • 影响力提升:通过开源贡献建立个人技术品牌,或转向技术管理岗位领导优化团队
  • 优化深度学习框架(如PyTorch、vLLM)在AMD GPU上的性能,并将改进反馈给开源社区
  • 深入理解LLM和多模态模型的架构,实现针对性的性能优化,如KV缓存、量化等
  • 进行端到端性能分析,识别多GPU集群中的计算、内存和通信瓶颈,并通过系统级优化提升吞吐和降低延迟
  • 与内部GPU库团队及开源项目合作,推动编译器技术和图编译器在推理场景的应用
  • 扎实的Python/C++编程能力,熟悉Linux开发环境
  • 深入理解Transformer、注意力机制、MoE、KV Cache等LLM核心概念
  • 有GPU编程经验(ROCm/CUDA)和性能分析工具使用经验(如PyTorch Profiler)
  • 了解分布式推理(Tensor Parallel、Pipeline Parallel)和模型量化(FP8/FP4)

申请策略

  • 了解AMD ROCm生态和最新硬件(如MI300),在面试中展示对AMD平台的理解
  • 准备一个端到端的优化案例,从问题定义、方案设计到效果验证,体现系统化思维
  • 突出相关项目经验:如优化过某个模型推理性能,或使用过vLLM、SGLang等框架并进行二次开发
  • 强调GPU编程经历:如使用CUDA/HIP编写过内核,或使用Triton进行算子优化
  • 展示开源贡献:如果参与过PyTorch、LLVM、ROCm等项目的任何贡献,务必列出
  • 量化成果:如将某模型推理延迟降低X%,吞吐提升Y%
  • 熟悉PyTorch Profiler、Nsight等性能分析工具,掌握性能瓶颈定位方法
  • 学习ROCm编程模型和HIP编程,了解AMD GPU架构特点

面试指南

  • 对于性能优化问题:先明确目标(延迟/吞吐),然后通过profiling识别热点,再提出优化方案(计算、内存、通信),最后验证并迭代
  • 对于模型架构问题:从基础概念出发,结合具体实现(如FlashAttention、PagedAttention)说明
  • 对于开源框架问题:了解框架核心设计(如vLLM的continuous batching),并讨论其与硬件协同的机制
  • 请解释Transformer中的自注意力机制,并说明KV Cache的作用和优化方式
  • 如何优化一个LLM推理端到端性能?你会从哪些方面入手?
  • 你对vLLM或SGLang有了解吗?它们如何实现高效率推理?
  • 在多GPU环境下,如何减少通信开销?请谈谈Tensor Parallel和Pipeline Parallel的优缺点
  • 请描述一次你通过性能分析找到瓶颈并优化的经历

职位点评

65
综合评分

GPU大厂、前沿AI技术栈、高成长性,但现场办公且WLB一般。

更适合这类人
最适合重视技术成长和行业前沿的求职者,愿意投入时间深度钻研性能优化,对工作生活平衡要求不高。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展85
工作生活40
使命价值65

薪资福利

70中等

AMD作为上市跨国企业,薪资福利在行业中具备竞争力,但职位未明确披露薪资范围,且无具体福利细节。总体上薪资处于市场水准以上。

薪资信号未披露(AI估算:35K-60K/月)

成长发展

85较高

职位涉及前沿AI和GPU优化技术,技术栈先进,有机会贡献开源社区,成长空间大。但JD未明确提及晋升路径或培训计划。

技术前沿前沿/新兴技术
技术栈LLM、vLLM、SGLang、ROCm、HIP、CUTLASS、Triton、多模态
成长机会Together, we advance your career.
业务类型profit_center

工作生活

40较低

职位要求现场办公,上海地点,未提及远程或弹性工作。AMD作为传统硬件公司,WLB一般,JD未给出WLB信号。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

65中等

AMD致力于加速下一代计算体验,AI推理优化直接推动行业发展,具有一定社会价值。但JD未明确提及使命或社会影响。

行业发展高速增长赛道
社会影响中性/一般
使命信号accelerate next-generation computing experiences、solve the world's most important challenges
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • Commercial Sales Account Manager 1

    超威半导体 · 北京市
    AI 估算 · 30k-50k
  • Commercial Sales Account Manager 1

    超威半导体 · 深圳市
    AI 估算 · 25k-45k
  • Commercial Sales Account Manager 1

    超威半导体 · 北京市
    AI 估算 · 25k-45k
  • Commercial Sales Account Manager 1

    超威半导体 · 北京市
    AI 估算 · 20k-40k
  • Project/Program Manager

    超威半导体 · 苏州市
    AI 估算 · 25k-40k

相似职位推荐

  • 测试开发工程师(实习生)(J100989)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 大模型应用后端研发实习生(GO/Python方向)(J101073)

    百度 · 上海市
    AI 估算 · 4k-8k
  • Software Engineer

    安波福 · 苏州市
    AI 估算 · 20k-30k
  • Engineer

    友邦保险 · CN-M Plaza
    AI 估算 · 15k-25k
  • 后端开发工程师

    同程旅行 · 苏州市
    AI 估算 · 10k-20k

超威半导体 的其他在招职位

  • Commercial Sales Account Manager 1

    超威半导体 · 北京市
    AI 估算 · 30k-50k
  • Commercial Sales Account Manager 1

    超威半导体 · 深圳市
    AI 估算 · 25k-45k
  • Commercial Sales Account Manager 1

    超威半导体 · 北京市
    AI 估算 · 25k-45k
  • Commercial Sales Account Manager 1

    超威半导体 · 北京市
    AI 估算 · 20k-40k
  • Project/Program Manager

    超威半导体 · 苏州市
    AI 估算 · 25k-40k

相似职位推荐

  • 测试开发工程师(实习生)(J100989)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 大模型应用后端研发实习生(GO/Python方向)(J101073)

    百度 · 上海市
    AI 估算 · 4k-8k
  • Software Engineer

    安波福 · 苏州市
    AI 估算 · 20k-30k
  • Engineer

    友邦保险 · CN-M Plaza
    AI 估算 · 15k-25k
  • 后端开发工程师

    同程旅行 · 苏州市
    AI 估算 · 10k-20k