
Deep Learning Performance Architect
发布于 大约 2 个月前普通员工/个人贡献者
AI 估算 · 40k–80k
高级深度学习性能架构师,技能稀缺,GPU和AI领域人才需求旺盛,NVIDIA作为行业龙头提供极具竞争力的薪资。
职位详情
关于这个职位
该职位负责分析新型深度学习网络(如LLM),识别并原型化性能优化机会,影响英伟达当前和下一代推理产品的软硬件架构
最低要求
BS, MS, or PhD in a relevant field (CS, EE, Math, etc.) or equivalent experience. 5+ years’ work experience. Excellent C/C++ programming and software build skills. Experience in kernel development and performance tuning on GPUs (or other accelerators). Familiarity with typical deep learning SW frameworks (e.g., Torch/JAX/TensorFlow/TensorRT) and popular AI models (e.g., LLM and AIGC models). Familiarity and background with hardware frameworks for deep learning applications.
工作职责
Analyze brand-new DL networks (LLM etc.), identify and prototype performance opportunities to influence SW and Architecture team for NVIDIA's current and next-gen inference products. Develop prototypes of the fastest kernels on present and future NVIDIA GPUs. Define hardware and software setups along with measurements to evaluate performance, power consumption, and accuracy in current and upcoming chips. Collaborate across the company to guide the direction of next-gen deep learning HW/SW by working with architecture, software, and product teams.
优先资格
Experience in the performance optimization of DL workloads. Experience with MLIR and AI compiler development.
AI 洞察
优缺点分析
优点
- 身处AI浪潮最前沿,接触英伟达最先进的GPU架构和深度学习技术
- 高薪与优质福利,股票期权等长线激励
- 与全球顶尖工程师合作,技术积累快,行业认可度高
- 技术深度极高,需要同时掌握硬件、软件和算法,学习曲线陡峭
- 工作强度较大,迭代周期快,需要持续跟进学术界最新模型
- 岗位稀缺,竞争激烈,对综合能力要求严格
- 适合具有扎实GPU编程功底、热爱底层性能优化、对AI硬件架构充满热情的资深工程师
缺点 / 挑战
暂无明显挑战项
角色解读
- 技术向:成为深度学习性能优化专家,主导核心架构设计
- 管理向:技术主管或架构师,带领团队攻关前沿项目
- 跨领域:向AI编译器、芯片设计或系统架构方向拓展
- 分析新兴深度学习网络(如LLM),识别并量化性能瓶颈,为软硬件团队提供优化方向
- 开发高效的GPU内核原型,在现有和未来硬件上实现极致性能
- 定义测试方案,评估新芯片的性能、功耗和精度,并协同架构团队优化下一代产品
- 精通C/C++和GPU编程(CUDA),具备高性能内核开发与调优经验
- 深入理解深度学习框架(Torch, TensorRT等)及主流模型(LLM, AIGC)
- 熟悉硬件架构和性能建模,有编译器(如MLIR)经验者更优
申请策略
- 在面试中展示你对AI模型加速的独到见解,结合近期论文提出优化思路
- 了解英伟达产品线(如H100, B200)和CUDA生态,展现热情
- 突出GPU内核开发或性能调优的具体项目,展示量化成果(如延迟降低X%)
- 强调对LLM等大模型的理解以及TensorRT等框架的使用经验
- 如有编译器或硬件架构相关经历,重点描述影响力
- 系统学习CUDA编程和GPU架构(如Sharding, Memory Hierarchy)
- 动手分析PyTorch/TensorRT官方优化案例,掌握性能分析工具(Nsight)
- 了解MLIR或TVM等编译器栈,尝试编写简单的编译Pass
面试指南
- 结构化思路:先分析瓶颈(计算/访存/通信),再分软硬件层面给出方案,并量化预期收益
- 项目故事法:用STAR法则描述过去优化案例,突出关键决策和量化结果
- 如何优化一个Transformer模型的推理性能?请从硬件和软件角度分别说明
- 描述一次你通过内核优化显著提升GPU性能的经历
- 对比TensorRT和原生PyTorch推理的性能差异,你如何权衡?
- 解释GPU内存层次结构,如何据此设计高效的数据布局?
- 如果新架构不支持某个算子,你如何快速实现一个等效的高性能内核?
- 复习GPU架构精髓(SM, warp, shared memory等),准备手写kernel
职位点评
顶级AI芯片公司的高阶技术岗,技术前沿、薪资优厚,但工作强度大、现场办公。
薪资福利
该职位来自上市公司英伟达,薪资水平在行业中处于高位,且福利待遇全面,能较好满足补偿性动机。
成长发展
岗位涉及最前沿的AI加速技术和GPU架构,技术成长空间极大,且有机会影响下一代硬件设计。
工作生活
职位要求现场办公,未提及弹性工作或WLB信息,且技术岗高强度加班较常见,生活化动机满足程度一般。
使命价值
英伟达在AI基础设施领域具有核心影响力,工作成果直接推动行业进步,使命感和行业前景较强。
英伟达 的其他在招职位
Applied Research Intern, Robotics - 2026
英伟达 · 上海市AI 估算 · 6k-10kSimulation Engineer, Industrial Physics and Robotics
英伟达 · 上海市AI 估算 · 40k-70kSenior Technical Program Manager - Automotive Vehicles
英伟达 · 上海市AI 估算 · 40k-60kASIC Physical Design Engineer
英伟达 · 上海市AI 估算 · 30k-50kRobotics Software Intern, Deployment and Humanoids - 2026
英伟达 · 上海市AI 估算 · 6k-12k