超威半导体的AI软件应用工程师（模型推理/优化）26校招薪资是多少？

该职位薪资范围为 25k–40k（人民币/月）。

AI软件应用工程师（模型推理/优化）26校招的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求硕士学历及初级经验工作经验。

🤖 AI 估测：¥25K-40K

发布时间：24 天前

这是一个面向2025/2026届硕士毕业生的AI软件应用工程师岗位，专注于AI模型的推理与性能优化

你将负责设计和优化高性能GPU内核，以提升AI/ML工作负载在AMD硬件上的运行效率，并与软件栈团队协作，将优化成果集成到高级框架和推理引擎中

高性能内核开发：为AI/ML工作负载设计、实现和优化高性能GPU内核，以最大化硬件利用率

性能优化：分析和优化内核执行的延迟和吞吐量，解决内存带宽、指令延迟和线程分歧方面的瓶颈

工作负载分析：评估单个内核对全栈AI模型的端到端性能影响，确保微优化能转化为应用级的速度提升

性能剖析与调优：使用高级GPU剖析工具（如ROCm Profiler、PyTorch Profiler）识别性能瓶颈、流水线停顿和内存层次结构效率低下问题

架构适配：调整实现策略以利用现代GPU架构的特定功能（例如矩阵核心、HBM特性）

框架集成：与软件栈团队协作，在高级框架和推理引擎中暴露优化后的内核

对数据中心AI工作负载（如LLM、生成式AI、推荐系统、NLP、视频分析、Transformer等）有深入了解

具备各种AI模型、端到端流水线、行业框架/SDK和解决方案的实践经验

深入理解现代GPU底层架构，包括流式多处理器（SMs/CUs）、内存层次结构（寄存器、共享内存、L1/L2缓存、HBM）以及warp/wavefront执行模型

精通C++和并行计算，在NVIDIA CUDA或AMD HIP内核编程方面有丰富的实践经验

具备调试和分析复杂GPU工作负载的能力，能够解读底层指标以驱动架构感知的优化

熟悉异步执行、流管理和主机-设备内存传输

2025或2026年毕业的硕士候选人

有使用OpenAI Triton或其他基于Python的DSL实现内核以进行敏捷内核开发和自动调优的经验

有将自定义内核集成到大规模推理框架（如vLLM、SGLang或TensorRT-LLM）的实践经验

熟悉为PyTorch编写自定义扩展或算子（C++/CUDA扩展）

具备在NVIDIA和AMD架构之间移植内核或使用跨平台HPC库的经验

AI软件应用工程师（模型推理/优化）26校招

🤖 AI 估测：¥25K-40K

发布时间：24 天前