Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

AMD logo
超威半导体
Sr. Software Development Engineer
立即应聘

Sr. Software Development Engineer

发布于 大约 15 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
本科
软件工程
分布式系统
PyTorch
性能优化
LLM
编译器优化
多模态
CUDA
ROCm
HIP

AI 估算 · 40k–60k

高级软件工程师,AI/芯片行业,北京,技能稀缺,薪资竞争力强。

职位详情

关于这个职位

该职位负责开发并优化大型语言模型和多模态模型在 AMD GPU 上的高性能推理系统

您将参与到前沿 AI 框架的优化、模型适配以及跨团队协作中,为下一代计算体验提供核心软件支撑

最低要求

软件工程技能:熟悉 Python,熟悉 C++ 或异步编程者优先

理解 LLM 或多模态模型概念:了解 Transformer 架构、注意力机制、视觉-语言对齐及推理管线(如图像+文本输入处理),具备 Transformer/Attention/MoE/KV Cache、量化(FP8/FP4)的理论基础
Linux 开发环境:熟练使用命令行工具、Git 及标准调试/性能分析工具
端到端 LLM 性能工程:具备跨多 GPU 和多节点环境的性能分析及诊断计算、内存、通信瓶颈的经验
软件工程卓越与社区贡献(加分):扎实的 Python/C++ 编码技能及调试测试实践,能够交付可维护的性能关键软件,并有开源贡献记录
GPU 内核开发与优化(加分):了解使用 HIP、CUDA、ASM 及 CK、CUTLASS、Triton 等工具为 AMD GPU 调优高性能 GPU 内核
编译器与系统级优化(加分):具备 LLVM、ROCm 及编译器驱动技术的基础知识,用于提升内核和系统性能
模型架构与优化专长:具有多模态模型(如 Qwen-VL、Qwen-Image-Edit、Wan)或扩散生成模型的经验,熟悉量化、PagedAttention、连续批处理或推测解码等技术
开发技能:接触过 GPU 计算(ROCm、CUDA)或性能分析工具(如 PyTorch Profiler)
分布式系统经验:具有大规模模型分布式推理(如 Tensor Parallel、Pipeline Parallel)经验

工作职责

深度学习与 LLM 框架优化:优化主要的 DL/LLM 框架(PyTorch、vLLM、SGLang)以适配 AMD GPU,并向上游贡献改进

模型感知实现:构建与 LLM 和多模态架构(如 Llama、Qwen-VL、Wan)密切交互的功能,需要理解注意力机制、跨模态融合、KV 缓存和量化
性能意识编码:编写高效、可扩展的代码,同时考虑多 GPU 环境下的内存使用、并发和瓶颈
性能分析:使用性能分析工具评估修改的影响,识别回归,并在开发周期中验证性能改进
端到端性能工程:进行全面的性能分析以识别瓶颈,并在多 GPU 和多节点设置中实现系统、内存和通信优化
编译器与管线加速:利用编译器技术和图编译器增强整个深度学习和推理管线
研究与先进技术:原型化和集成新兴优化方法,如推测解码和仅权重量化,到生产系统中
跨团队与开源协作:与内部 GPU 库团队和开源维护者合作,确保改进对齐并顺利向上游集成
软件工程卓越:应用稳健的工程实践交付可维护、可靠、生产质量的性能优化

优先资格

计算机科学、计算机工程、电气工程或相关领域的学士学位

AI 洞察

优缺点分析

优点

  • 前沿技术栈:直接参与 LLM、多模态模型等最热门 AI 领域的底层优化,技术价值高
  • 顶级平台:AMD 是半导体行业巨头,提供丰富的 GPU 计算资源和开源生态影响力
  • 成长空间:与顶尖工程师和开源社区协作,快速积累系统级优化和分布式计算经验
  • 技术门槛高:需同时具备软件工程、深度学习、GPU 内核及系统优化等多领域知识
  • 工作强度可能较大:涉及多团队协作和开源贡献,需要较强的自驱力和快速迭代能力
  • 竞争激烈:岗位要求高,优秀候选人众多,面试难度大

缺点 / 挑战

  • 适合在深度学习系统优化领域有扎实基础,渴望挑战前沿技术,并愿意在跨团队环境中持续成长的软件工程师

角色解读

  • 技术深耕:成为 GPU 计算和 AI 推理性能优化领域的专家,主导核心模块架构设计
  • 架构演进:向系统架构师或首席工程师发展,负责全栈 AI 推理方案的规划和落地
  • 团队扩展:有机会带领或指导新人,逐步转向技术管理岗位,推动团队技术方向
  • 开发和优化深度学习框架(如 PyTorch、vLLM)以在 AMD GPU 上高效运行 LLM 和多模态模型
  • 编写高性能、可扩展的代码,关注内存和通信优化,使用 Profiling 工具识别和解决性能瓶颈
  • 与内部 GPU 库团队和开源社区协作,将优化成果向上游贡献,推动 AI 推理系统的发展
  • 研究和实现前沿技术如推测解码、权重量化,并集成到生产管线中
  • 扎实的 Python/C++ 编程能力,熟悉 Linux 开发环境和版本控制工具
  • 深入理解 Transformer、注意力机制、KV Cache、量化(FP8/FP4)等 LLM/多模态模型概念
  • 具备多 GPU/多节点环境下的性能分析和优化经验,熟悉分布式推理方案
  • 接触过 GPU 编程(CUDA/HIP)或性能分析工具,了解编译器优化(LLVM/ROCm)为加分项

申请策略

  • 在简历中用量化指标(如延迟降低 X%,吞吐提升 Y%)展示实际优化成果
  • 关注 AMD 的 AI 生态系统战略,了解其与开源社区的互动方式,在面试中体现文化契合
  • 突出 LLM/多模态模型相关的优化经验,如量化、分布式推理、性能 Profiling 案例
  • 强调 Python/C++ 编程能力,特别是高性能、多线程/异步编程经验
  • 列举开源贡献(如向 PyTorch、vLLM 等项目提交 PR),展示社区协作能力
  • 展示 GPU 编程(CUDA/HIP)或编译器优化(LLVM/ROCm)相关项目成果
  • 补充或强化 AMD ROCm 平台和 HIP 编程知识,熟悉 AMD GPU 开发工具
  • 深入学习 vLLM、SGLang 等推理框架的源码,理解 PagedAttention、Continuous Batching 等机制

面试指南

  • 技术深度结合实践:先阐述理论概念,再举例如何在实际项目中应用,突出优化收益
  • 系统化思考:从整体架构出发,分析可能瓶颈,层层递进到具体优化手段
  • 协作与开源意识:强调跨团队沟通、代码复用和开源贡献的价值
  • 请描述你对 Transformer 架构中自注意力机制的理解,以及如何针对 GPU 进行优化?
  • 如何在多 GPU 环境下实现模型并行?请比较 Tensor Parallel 和 Pipeline Parallel
  • 你有过使用 Profiling 工具定位性能瓶颈的经历吗?具体是怎么做的?
  • 谈谈你对量化(FP8/FP4)的理解,以及在 LLM 应用中如何平衡精度和性能?
  • 你如何为一个新模型(如 Qwen-VL)设计高效的推理管线?

职位点评

75
综合评分

前沿 AI 推理系统优化,技术成长极强,薪资竞争力高,工作强度未知。

更适合这类人
最适合追求前沿技术深度成长、渴望在 AI 核心领域创造影响力的开发者,对工作生活平衡要求不高的人。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展90
工作生活50
使命价值85

薪资福利

75中等

薪资方面,高级软件工程师在北京的 AI/芯片行业具有较强竞争力,但未在 JD 中明确具体数额,仅提及有福利。整体补偿性较好。

薪资信号未披露(AI估算:40K-60K/月)

成长发展

90较高

该职位涉及最前沿的 LLM 和多模态模型优化技术,有大量成长机会和开源协作,发展性极强。

技术前沿前沿/新兴技术
技术栈LLM、多模态、PyTorch、vLLM、SGLang、ROCm、HIP、CUDA、量化、分布式推理、编译器优化
业务类型profit_center

工作生活

50较低

工作地点在北京,且 JD 未明确远程或弹性工作方式,也未提及加班情况,生活化动机满足度一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

85较高

AMD 致力于推动下一代计算体验,尤其在 AI 和数据中心领域,职位参与底层创新,意义感较强。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号accelerate next-generation computing experiences、shape the future of AI
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • Project/Program Manager

    超威半导体 · 苏州市
    AI 估算 · 25k-40k
  • Systems Design Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • Sr. Manager, Partner Portfolio and Partner Marketing - Asia OEMs

    超威半导体 · 北京市
    AI 估算 · 60k-90k
  • Customer Debug Lead

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • AI Training Optimization Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-50k

相似职位推荐

  • AI 开发工程师(Agent 方向)

    小米 · 武汉市
    AI 估算 · 4k-6k
  • 车载通讯诊断升级高级工程师

    小米 · 北京市
    AI 估算 · 40k-60k
  • 测试开发工程师-实习生

    小米 · 武汉市
    AI 估算 · 4k-6k
  • 大模型数据策略工程师实习生

    小米 · 北京市
    AI 估算 · 5k-8k
  • 【27届实习】Ray研发工程师

    小红书 · 北京市
    AI 估算 · 4k-6k

超威半导体 的其他在招职位

  • Project/Program Manager

    超威半导体 · 苏州市
    AI 估算 · 25k-40k
  • Systems Design Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • Sr. Manager, Partner Portfolio and Partner Marketing - Asia OEMs

    超威半导体 · 北京市
    AI 估算 · 60k-90k
  • Customer Debug Lead

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • AI Training Optimization Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-50k

相似职位推荐

  • AI 开发工程师(Agent 方向)

    小米 · 武汉市
    AI 估算 · 4k-6k
  • 车载通讯诊断升级高级工程师

    小米 · 北京市
    AI 估算 · 40k-60k
  • 测试开发工程师-实习生

    小米 · 武汉市
    AI 估算 · 4k-6k
  • 大模型数据策略工程师实习生

    小米 · 北京市
    AI 估算 · 5k-8k
  • 【27届实习】Ray研发工程师

    小红书 · 北京市
    AI 估算 · 4k-6k