英伟达的Deep Learning Performance Architect薪资是多少？

该职位薪资范围为 40k–80k（人民币/月）。

Deep Learning Performance Architect的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

英伟达的Deep Learning Performance Architect有什么任职要求？

该职位要求本科学历及高级经验工作经验。

英伟达

Deep Learning Performance Architect

立即应聘

Deep Learning Performance Architect

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

本科

硬件工程

LLM

CUDA

TensorRT

MLIR

Performance Optimization

Ai Compiler

Gpu Programming

Hardware Architecture

AI 估算 · 40k–80k

高级深度学习性能架构师，技能稀缺，GPU和AI领域人才需求旺盛，NVIDIA作为行业龙头提供极具竞争力的薪资。

职位详情

关于这个职位

该职位负责分析新型深度学习网络（如LLM），识别并原型化性能优化机会，影响英伟达当前和下一代推理产品的软硬件架构

你将开发GPU上的高性能内核，参与新芯片的性能和功耗评估，并与架构、软件及产品团队合作，共同定义下一代深度学习硬件和软件方向

适合具有深厚GPU编程和DL模型优化经验的专业人士

最低要求

BS, MS, or PhD in a relevant field (CS, EE, Math, etc.) or equivalent experience. 5+ years’ work experience. Excellent C/C++ programming and software build skills. Experience in kernel development and performance tuning on GPUs (or other accelerators). Familiarity with typical deep learning SW frameworks (e.g., Torch/JAX/TensorFlow/TensorRT) and popular AI models (e.g., LLM and AIGC models). Familiarity and background with hardware frameworks for deep learning applications.

工作职责

Analyze brand-new DL networks (LLM etc.), identify and prototype performance opportunities to influence SW and Architecture team for NVIDIA's current and next-gen inference products. Develop prototypes of the fastest kernels on present and future NVIDIA GPUs. Define hardware and software setups along with measurements to evaluate performance, power consumption, and accuracy in current and upcoming chips. Collaborate across the company to guide the direction of next-gen deep learning HW/SW by working with architecture, software, and product teams.

优先资格

Experience in the performance optimization of DL workloads. Experience with MLIR and AI compiler development.

AI 洞察

优缺点分析

优点

身处AI浪潮最前沿，接触英伟达最先进的GPU架构和深度学习技术
高薪与优质福利，股票期权等长线激励
与全球顶尖工程师合作，技术积累快，行业认可度高
技术深度极高，需要同时掌握硬件、软件和算法，学习曲线陡峭
工作强度较大，迭代周期快，需要持续跟进学术界最新模型
岗位稀缺，竞争激烈，对综合能力要求严格
适合具有扎实GPU编程功底、热爱底层性能优化、对AI硬件架构充满热情的资深工程师

缺点 / 挑战

暂无明显挑战项

角色解读

技术向：成为深度学习性能优化专家，主导核心架构设计
管理向：技术主管或架构师，带领团队攻关前沿项目
跨领域：向AI编译器、芯片设计或系统架构方向拓展
分析新兴深度学习网络（如LLM），识别并量化性能瓶颈，为软硬件团队提供优化方向
开发高效的GPU内核原型，在现有和未来硬件上实现极致性能
定义测试方案，评估新芯片的性能、功耗和精度，并协同架构团队优化下一代产品
精通C/C++和GPU编程（CUDA），具备高性能内核开发与调优经验
深入理解深度学习框架（Torch, TensorRT等）及主流模型（LLM, AIGC）
熟悉硬件架构和性能建模，有编译器（如MLIR）经验者更优

申请策略

在面试中展示你对AI模型加速的独到见解，结合近期论文提出优化思路
了解英伟达产品线（如H100, B200）和CUDA生态，展现热情
突出GPU内核开发或性能调优的具体项目，展示量化成果（如延迟降低X%）
强调对LLM等大模型的理解以及TensorRT等框架的使用经验
如有编译器或硬件架构相关经历，重点描述影响力
系统学习CUDA编程和GPU架构（如Sharding, Memory Hierarchy）
动手分析PyTorch/TensorRT官方优化案例，掌握性能分析工具（Nsight）
了解MLIR或TVM等编译器栈，尝试编写简单的编译Pass

面试指南

结构化思路：先分析瓶颈（计算/访存/通信），再分软硬件层面给出方案，并量化预期收益
项目故事法：用STAR法则描述过去优化案例，突出关键决策和量化结果
如何优化一个Transformer模型的推理性能？请从硬件和软件角度分别说明
描述一次你通过内核优化显著提升GPU性能的经历
对比TensorRT和原生PyTorch推理的性能差异，你如何权衡？
解释GPU内存层次结构，如何据此设计高效的数据布局？
如果新架构不支持某个算子，你如何快速实现一个等效的高性能内核？
复习GPU架构精髓（SM, warp, shared memory等），准备手写kernel

职位点评

综合评分

顶级AI芯片公司的高阶技术岗，技术前沿、薪资优厚，但工作强度大、现场办公。

更适合这类人

最适合重视技术成长和薪资回报的求职者，愿意在挑战性高强度环境中追求前沿突破。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活60

使命价值80

薪资福利

85较高

该职位来自上市公司英伟达，薪资水平在行业中处于高位，且福利待遇全面，能较好满足补偿性动机。

薪资信号偏高 (40K-80K/月)

福利待遇competitive salaries、comprehensive benefits package

成长发展

90较高

岗位涉及最前沿的AI加速技术和GPU架构，技术成长空间极大，且有机会影响下一代硬件设计。

技术前沿前沿/新兴技术

技术栈Deep Learning、LLM、AIGC、GPU、CUDA、TensorRT、MLIR、AI Compiler

业务类型profit_center

工作生活

60中等

职位要求现场办公，未提及弹性工作或WLB信息，且技术岗高强度加班较常见，生活化动机满足程度一般。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

80较高

英伟达在AI基础设施领域具有核心影响力，工作成果直接推动行业进步，使命感和行业前景较强。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号transforming computer graphics、define the next era of computing、make a lasting impact on the world

创新程度积极采用新技术

Watch Jobs

英伟达

Deep Learning Performance Architect

立即应聘

Deep Learning Performance Architect

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

本科

硬件工程

LLM

CUDA

TensorRT

MLIR

Performance Optimization

Ai Compiler

Gpu Programming

Hardware Architecture

AI 估算 · 40k–80k

高级深度学习性能架构师，技能稀缺，GPU和AI领域人才需求旺盛，NVIDIA作为行业龙头提供极具竞争力的薪资。

职位详情

关于这个职位

该职位负责分析新型深度学习网络（如LLM），识别并原型化性能优化机会，影响英伟达当前和下一代推理产品的软硬件架构

你将开发GPU上的高性能内核，参与新芯片的性能和功耗评估，并与架构、软件及产品团队合作，共同定义下一代深度学习硬件和软件方向

适合具有深厚GPU编程和DL模型优化经验的专业人士

最低要求

工作职责

优先资格

Experience in the performance optimization of DL workloads. Experience with MLIR and AI compiler development.

AI 洞察

优缺点分析

优点

身处AI浪潮最前沿，接触英伟达最先进的GPU架构和深度学习技术
高薪与优质福利，股票期权等长线激励
与全球顶尖工程师合作，技术积累快，行业认可度高
技术深度极高，需要同时掌握硬件、软件和算法，学习曲线陡峭
工作强度较大，迭代周期快，需要持续跟进学术界最新模型
岗位稀缺，竞争激烈，对综合能力要求严格
适合具有扎实GPU编程功底、热爱底层性能优化、对AI硬件架构充满热情的资深工程师

缺点 / 挑战

暂无明显挑战项

角色解读

技术向：成为深度学习性能优化专家，主导核心架构设计
管理向：技术主管或架构师，带领团队攻关前沿项目
跨领域：向AI编译器、芯片设计或系统架构方向拓展
分析新兴深度学习网络（如LLM），识别并量化性能瓶颈，为软硬件团队提供优化方向
开发高效的GPU内核原型，在现有和未来硬件上实现极致性能
定义测试方案，评估新芯片的性能、功耗和精度，并协同架构团队优化下一代产品
精通C/C++和GPU编程（CUDA），具备高性能内核开发与调优经验
深入理解深度学习框架（Torch, TensorRT等）及主流模型（LLM, AIGC）
熟悉硬件架构和性能建模，有编译器（如MLIR）经验者更优

申请策略

在面试中展示你对AI模型加速的独到见解，结合近期论文提出优化思路
了解英伟达产品线（如H100, B200）和CUDA生态，展现热情
突出GPU内核开发或性能调优的具体项目，展示量化成果（如延迟降低X%）
强调对LLM等大模型的理解以及TensorRT等框架的使用经验
如有编译器或硬件架构相关经历，重点描述影响力
系统学习CUDA编程和GPU架构（如Sharding, Memory Hierarchy）
动手分析PyTorch/TensorRT官方优化案例，掌握性能分析工具（Nsight）
了解MLIR或TVM等编译器栈，尝试编写简单的编译Pass

面试指南

结构化思路：先分析瓶颈（计算/访存/通信），再分软硬件层面给出方案，并量化预期收益
项目故事法：用STAR法则描述过去优化案例，突出关键决策和量化结果
如何优化一个Transformer模型的推理性能？请从硬件和软件角度分别说明
描述一次你通过内核优化显著提升GPU性能的经历
对比TensorRT和原生PyTorch推理的性能差异，你如何权衡？
解释GPU内存层次结构，如何据此设计高效的数据布局？
如果新架构不支持某个算子，你如何快速实现一个等效的高性能内核？
复习GPU架构精髓（SM, warp, shared memory等），准备手写kernel

职位点评

综合评分

顶级AI芯片公司的高阶技术岗，技术前沿、薪资优厚，但工作强度大、现场办公。

更适合这类人

最适合重视技术成长和薪资回报的求职者，愿意在挑战性高强度环境中追求前沿突破。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活60

使命价值80

薪资福利

85较高

该职位来自上市公司英伟达，薪资水平在行业中处于高位，且福利待遇全面，能较好满足补偿性动机。

薪资信号偏高 (40K-80K/月)

福利待遇competitive salaries、comprehensive benefits package

成长发展

90较高

岗位涉及最前沿的AI加速技术和GPU架构，技术成长空间极大，且有机会影响下一代硬件设计。

技术前沿前沿/新兴技术

技术栈Deep Learning、LLM、AIGC、GPU、CUDA、TensorRT、MLIR、AI Compiler

业务类型profit_center

工作生活

60中等

职位要求现场办公，未提及弹性工作或WLB信息，且技术岗高强度加班较常见，生活化动机满足程度一般。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

80较高

英伟达在AI基础设施领域具有核心影响力，工作成果直接推动行业进步，使命感和行业前景较强。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号transforming computer graphics、define the next era of computing、make a lasting impact on the world

创新程度积极采用新技术

Watch Jobs

Deep Learning Performance Architect

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Deep Learning Performance Architect

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

英伟达 的其他在招职位

Applied Research Intern, Robotics - 2026

Simulation Engineer, Industrial Physics and Robotics

Senior Technical Program Manager - Automotive Vehicles

ASIC Physical Design Engineer

Robotics Software Intern, Deployment and Humanoids - 2026

相似职位推荐

系统工程师

硬件研发工程师

BMC工程师

互连设计工程师

Structural Design Engineer

英伟达 的其他在招职位

Applied Research Intern, Robotics - 2026

Simulation Engineer, Industrial Physics and Robotics

Senior Technical Program Manager - Automotive Vehicles

ASIC Physical Design Engineer

Robotics Software Intern, Deployment and Humanoids - 2026

相似职位推荐

系统工程师

硬件研发工程师

BMC工程师

互连设计工程师

Structural Design Engineer

英伟达的其他在招职位

英伟达的其他在招职位