Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

AMD logo
超威半导体
AI Training Optimization Engineer
立即应聘

AI Training Optimization Engineer

发布于 大约 10 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
软件工程
GPU
PyTorch
性能优化
CUDA
分布式训练
HIP
Megatron-LM
DeepSpeed

AI 估算 · 25k–50k

外企巨头AI训练优化岗,技术门槛高,上海薪资竞争力强。

职位详情

关于这个职位

作为AMD训练优化团队的一员,你将帮助客户在AMD GPU上高效训练AI模型,通过优化关键内核和前沿技术提升大规模系统训练性能,同时参与开发加速内核迭代的工具

最低要求

计算机科学、计算机工程、电气工程或相关专业学士或硕士学位

强大的GPU性能优化经验,深刻理解算法、模型架构和内核实现

工作职责

支持客户:通过识别瓶颈并交付内核级性能改进,确保在AMD GPU上顺利训练

优化热门算子:使用HIP、CUDA和Triton在真实训练负载中设计和优化内核
推进内核代理:改进基于代理的工具,加速内核开发并帮助达到峰值性能
加强AMD训练生态系统:填补功能空白,改进框架集成,增强基于ROCm的训练性能
探索前沿内核技术:原型设计下一代内核(如稀疏注意力、线性注意力操作)
跨团队协作:与GPU库团队、运行时/通信团队以及开源维护者合作,推动上游改进
优化分布式训练:通过更好的通信/计算重叠和并行策略,提升多GPU和多节点集群的性能

优先资格

熟悉HIP、CUDA、Triton及GPU性能调优

深刻理解Transformer模型、注意力机制及训练算法
有使用底层工具进行内核分析和优化的经验
熟悉PyTorch内部机制、Megatron-LM、DeepSpeed或其他大规模训练框架
有调试或优化分布式训练(DP/TP/PP/ZeRO)的经验
有构建或优化内核代理、运行时调度器或性能自动化工具的经验
对内核库(CUTLASS、CK)、Triton或ML编译器生态系统有贡献

AI 洞察

优缺点分析

优点

  • 掌握前沿的GPU优化技术(CUDA、HIP、Triton),技能稀缺性强
  • 在AMD这样的大型芯片公司,能够接触最新的硬件和软件生态
  • 参与AI训练优化,是当前热点领域,职业前景广阔
  • 工作内容涉及底层优化和算法理解,技术深度高,积累扎实
  • 技术门槛高,需要同时具备底层编程和深度学习知识,学习曲线陡峭
  • 需要与客户直接沟通,解决实际问题,对问题诊断能力要求高
  • 工作强度可能较大,尤其在项目交付期或性能攻关阶段
  • 适合对GPU底层优化有强烈兴趣、具备扎实的CUDA/深度学习基础、喜欢解决复杂性能问题的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 从GPU优化工程师向AI系统架构师发展,主导大规模训练系统设计
  • 转向AI编译器或机器学习基础设施方向,成为领域专家
  • 在技术管理路径上,可带领团队负责训练优化项目
  • 帮助客户在AMD GPU上高效训练AI模型,识别并解决训练瓶颈
  • 使用HIP、CUDA、Triton等工具优化关键内核,提升训练性能
  • 开发内核代理工具,加速内核迭代和性能调优
  • 参与分布式训练优化,提升多GPU/多节点集群效率
  • 精通GPU编程和性能优化,熟悉HIP、CUDA、Triton
  • 深入理解深度学习模型架构(尤其是Transformer)和训练算法
  • 熟悉分布式训练框架(Megatron-LM、DeepSpeed等)和并行策略
  • 具备底层性能分析和调试能力,能够使用profiling工具

申请策略

  • 了解AMD的AI训练产品(如ROCm、MI系列GPU),在面试中展示对AMD技术的热情
  • 准备好一个端到端的训练优化案例,包括问题分析、方案设计和性能提升数据
  • 突出GPU内核优化项目经验,尤其是使用CUDA、HIP或Triton的实际成果
  • 强调分布式训练优化经验,如数据并行、模型并行、ZeRO等
  • 展示对Transformer模型和训练算法的深入理解,可通过相关论文阅读或实验体现
  • 如果有开源贡献(如CUTLASS、Triton、PyTorch),务必列出
  • 深入学习HIP和ROCm平台,因为AMD的生态是其核心
  • 掌握Triton编程和编译器优化知识,提升内核开发效率

面试指南

  • 对于优化案例,使用STAR(情境、任务、行动、结果)结构,强调量化性能提升
  • 对于分布式问题,先澄清概念(如DP、TP、PP),然后结合实际经验给出优化思路
  • 对于开放性诊断问题,按照系统化方法:先profiling定位瓶颈,再提出优化假设,最后验证
  • 请描述一个你优化GPU内核的具体案例,包括遇到的挑战和如何解决的
  • 解释Transformer模型中的注意力机制,并讨论如何稀疏化计算
  • 分布式训练中,通信和计算重叠的策略有哪些?如何实现?
  • 你如何看待HIP和CUDA的异同?在AMD GPU上优化需要注意什么?
  • 假设一个训练任务在AMD GPU上性能不佳,你会如何诊断和优化?

职位点评

65
综合评分

外企前沿AI训练优化岗,技术含量极高,薪资优厚,但WLB一般。

更适合这类人
最适合追求技术深度和职业成长、愿意为之付出工作强度的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展90
工作生活40
使命价值60

薪资福利

70中等

外企薪资水平较高,福利完善,但薪资未明确,且工作强度可能较大,整体补偿性中等偏上。

薪资信号未披露(AI估算:25K-50K/月)

成长发展

90较高

职位技术非常前沿,涉及AI训练优化和GPU底层开发,技能成长空间极大,晋升通道明确。

技术前沿前沿/新兴技术
技术栈GPU、HIP、CUDA、Triton、Transformer、分布式训练、ROCm
成长机会push the limits of innovation、advance your career
业务类型ambiguous

工作生活

40较低

仅现场办公,未提及弹性工作或WLB,且GPU优化工作可能涉及加班,生活平衡一般。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值

60中等

AI行业高速增长,但职位对社会的直接影响不明显,意义感中等。

行业发展高速增长赛道
社会影响中性/一般
使命信号build great products、accelerate next-generation computing experiences、innovation
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • Customer Debug Lead

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • AI Inference/GPU Kernel Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • Memory/SSD SMTS and team lead

    超威半导体 · 深圳市
    AI 估算 · 35k-55k
  • AI Inference Engineer

    超威半导体 · 北京市
    AI 估算 · 35k-60k
  • DFT Engineer

    超威半导体 · 上海市
    AI 估算 · 20k-35k

相似职位推荐

  • (高级)安卓应用开发工程师

    特斯拉 · 上海市
    AI 估算 · 25k-45k
  • Specialist, ML Engineer

    渣打银行 · 广州市
    AI 估算 · 20k-40k
  • VP, Engineering Lead, AI Wealth

    渣打银行 · 广州市
    AI 估算 · 60k-90k
  • C++ 研发实习生(算法工程方向)/ C++ R&D Intern (Algorithm Engineering)(厦门)

    美图 · 厦门市
    AI 估算 · 3k-6k
  • C++ 研发实习生(算法工程方向)/ C++ R&D Intern (Algorithm Engineering)(深圳)

    美图 · 深圳市
    AI 估算 · 4k-8k

超威半导体 的其他在招职位

  • Customer Debug Lead

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • AI Inference/GPU Kernel Engineer

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • Memory/SSD SMTS and team lead

    超威半导体 · 深圳市
    AI 估算 · 35k-55k
  • AI Inference Engineer

    超威半导体 · 北京市
    AI 估算 · 35k-60k
  • DFT Engineer

    超威半导体 · 上海市
    AI 估算 · 20k-35k

相似职位推荐

  • (高级)安卓应用开发工程师

    特斯拉 · 上海市
    AI 估算 · 25k-45k
  • Specialist, ML Engineer

    渣打银行 · 广州市
    AI 估算 · 20k-40k
  • VP, Engineering Lead, AI Wealth

    渣打银行 · 广州市
    AI 估算 · 60k-90k
  • C++ 研发实习生(算法工程方向)/ C++ R&D Intern (Algorithm Engineering)(厦门)

    美图 · 厦门市
    AI 估算 · 3k-6k
  • C++ 研发实习生(算法工程方向)/ C++ R&D Intern (Algorithm Engineering)(深圳)

    美图 · 深圳市
    AI 估算 · 4k-8k