Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Nvidia logo
英伟达
Deep Learning Performance Architect
立即应聘

Deep Learning Performance Architect

发布于 大约 15 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
LLM
CUDA
TensorRT
MLIR
Performance Optimization
Ai Compiler
Gpu Programming
Hardware Architecture

AI 估算 · 40k–80k

高级深度学习性能架构师,技能稀缺,GPU和AI领域人才需求旺盛,NVIDIA作为行业龙头提供极具竞争力的薪资。

职位详情

关于这个职位

该职位负责分析新型深度学习网络(如LLM),识别并原型化性能优化机会,影响英伟达当前和下一代推理产品的软硬件架构

你将开发GPU上的高性能内核,参与新芯片的性能和功耗评估,并与架构、软件及产品团队合作,共同定义下一代深度学习硬件和软件方向
适合具有深厚GPU编程和DL模型优化经验的专业人士

最低要求

BS, MS, or PhD in a relevant field (CS, EE, Math, etc.) or equivalent experience. 5+ years’ work experience. Excellent C/C++ programming and software build skills. Experience in kernel development and performance tuning on GPUs (or other accelerators). Familiarity with typical deep learning SW frameworks (e.g., Torch/JAX/TensorFlow/TensorRT) and popular AI models (e.g., LLM and AIGC models). Familiarity and background with hardware frameworks for deep learning applications.

工作职责

Analyze brand-new DL networks (LLM etc.), identify and prototype performance opportunities to influence SW and Architecture team for NVIDIA's current and next-gen inference products. Develop prototypes of the fastest kernels on present and future NVIDIA GPUs. Define hardware and software setups along with measurements to evaluate performance, power consumption, and accuracy in current and upcoming chips. Collaborate across the company to guide the direction of next-gen deep learning HW/SW by working with architecture, software, and product teams.

优先资格

Experience in the performance optimization of DL workloads. Experience with MLIR and AI compiler development.

AI 洞察

优缺点分析

优点

  • 身处AI浪潮最前沿,接触英伟达最先进的GPU架构和深度学习技术
  • 高薪与优质福利,股票期权等长线激励
  • 与全球顶尖工程师合作,技术积累快,行业认可度高
  • 技术深度极高,需要同时掌握硬件、软件和算法,学习曲线陡峭
  • 工作强度较大,迭代周期快,需要持续跟进学术界最新模型
  • 岗位稀缺,竞争激烈,对综合能力要求严格
  • 适合具有扎实GPU编程功底、热爱底层性能优化、对AI硬件架构充满热情的资深工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 技术向:成为深度学习性能优化专家,主导核心架构设计
  • 管理向:技术主管或架构师,带领团队攻关前沿项目
  • 跨领域:向AI编译器、芯片设计或系统架构方向拓展
  • 分析新兴深度学习网络(如LLM),识别并量化性能瓶颈,为软硬件团队提供优化方向
  • 开发高效的GPU内核原型,在现有和未来硬件上实现极致性能
  • 定义测试方案,评估新芯片的性能、功耗和精度,并协同架构团队优化下一代产品
  • 精通C/C++和GPU编程(CUDA),具备高性能内核开发与调优经验
  • 深入理解深度学习框架(Torch, TensorRT等)及主流模型(LLM, AIGC)
  • 熟悉硬件架构和性能建模,有编译器(如MLIR)经验者更优

申请策略

  • 在面试中展示你对AI模型加速的独到见解,结合近期论文提出优化思路
  • 了解英伟达产品线(如H100, B200)和CUDA生态,展现热情
  • 突出GPU内核开发或性能调优的具体项目,展示量化成果(如延迟降低X%)
  • 强调对LLM等大模型的理解以及TensorRT等框架的使用经验
  • 如有编译器或硬件架构相关经历,重点描述影响力
  • 系统学习CUDA编程和GPU架构(如Sharding, Memory Hierarchy)
  • 动手分析PyTorch/TensorRT官方优化案例,掌握性能分析工具(Nsight)
  • 了解MLIR或TVM等编译器栈,尝试编写简单的编译Pass

面试指南

  • 结构化思路:先分析瓶颈(计算/访存/通信),再分软硬件层面给出方案,并量化预期收益
  • 项目故事法:用STAR法则描述过去优化案例,突出关键决策和量化结果
  • 如何优化一个Transformer模型的推理性能?请从硬件和软件角度分别说明
  • 描述一次你通过内核优化显著提升GPU性能的经历
  • 对比TensorRT和原生PyTorch推理的性能差异,你如何权衡?
  • 解释GPU内存层次结构,如何据此设计高效的数据布局?
  • 如果新架构不支持某个算子,你如何快速实现一个等效的高性能内核?
  • 复习GPU架构精髓(SM, warp, shared memory等),准备手写kernel

匹配度报告

79
综合匹配度

顶级AI芯片公司的高阶技术岗,技术前沿、薪资优厚,但工作强度大、现场办公。

适合人群
最适合重视技术成长和薪资回报的求职者,愿意在挑战性高强度环境中追求前沿突破。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活60
使命价值80

薪资福利匹配

85较高

该职位来自上市公司英伟达,薪资水平在行业中处于高位,且福利待遇全面,能较好满足补偿性动机。

薪资信号偏高 (40K-80K/月)
福利待遇competitive salaries、comprehensive benefits package

成长发展匹配

90较高

岗位涉及最前沿的AI加速技术和GPU架构,技术成长空间极大,且有机会影响下一代硬件设计。

技术前沿前沿/新兴技术
技术栈Deep Learning、LLM、AIGC、GPU、CUDA、TensorRT、MLIR、AI Compiler
业务类型profit_center

工作生活匹配

60中等

职位要求现场办公,未提及弹性工作或WLB信息,且技术岗高强度加班较常见,生活化动机满足程度一般。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

80较高

英伟达在AI基础设施领域具有核心影响力,工作成果直接推动行业进步,使命感和行业前景较强。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号transforming computer graphics、define the next era of computing、make a lasting impact on the world
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

英伟达 的其他在招职位

  • Senior Technical Program Manager, SCG Efficiency

    英伟达 · 上海市
    AI 估算 · 50k-80k
  • Senior Enterprise Solution Engineer

    英伟达 · 北京市
    AI 估算 · 30k-50k
  • Senior Formal Verification Engineer

    英伟达 · 上海市
    AI 估算 · 35k-55k
  • Senior DFX Engineer

    英伟达 · 上海市
    AI 估算 · 40k-60k
  • System Application Engineer

    英伟达 · 北京市
    AI 估算 · 30k-50k

相似职位推荐

  • Automation Engineer

    伟创力 · 苏州市
    AI 估算 · 10k-20k
  • 聆动通用-硬件工程师-合肥(J12091)

    科大讯飞 · 合肥市
    AI 估算 · 15k-25k
  • 设备技术开发

    一汽丰田 · 天津市
    AI 估算 · 10k-20k
  • Drive Systems Thermal Engineer_电驱动热管理工程师

    特斯拉 · 上海市
    AI 估算 · 25k-40k
  • 技术中心电气高级设计师

    中国远洋运输集团 · 大连市
    AI 估算 · 15k-25k

英伟达 的其他在招职位

  • Senior Technical Program Manager, SCG Efficiency

    英伟达 · 上海市
    AI 估算 · 50k-80k
  • Senior Enterprise Solution Engineer

    英伟达 · 北京市
    AI 估算 · 30k-50k
  • Senior Formal Verification Engineer

    英伟达 · 上海市
    AI 估算 · 35k-55k
  • Senior DFX Engineer

    英伟达 · 上海市
    AI 估算 · 40k-60k
  • System Application Engineer

    英伟达 · 北京市
    AI 估算 · 30k-50k

相似职位推荐

  • Automation Engineer

    伟创力 · 苏州市
    AI 估算 · 10k-20k
  • 聆动通用-硬件工程师-合肥(J12091)

    科大讯飞 · 合肥市
    AI 估算 · 15k-25k
  • 设备技术开发

    一汽丰田 · 天津市
    AI 估算 · 10k-20k
  • Drive Systems Thermal Engineer_电驱动热管理工程师

    特斯拉 · 上海市
    AI 估算 · 25k-40k
  • 技术中心电气高级设计师

    中国远洋运输集团 · 大连市
    AI 估算 · 15k-25k