Nvidia logo
英伟达
Deep Learning Performance Architect, CUTLASS DSL

Deep Learning Performance Architect, CUTLASS DSL

发布于 大约 16 小时前

普通员工/个人贡献者

上海市 / 北京市
中级经验
全职员工
仅现场办公
硕士
软件工程
GPU
性能优化
编译器
CUDA
LLVM
MLIR
DSL

AI 估算 · 35k–65k

AI芯片巨头、高级技术岗、一线城市,薪资竞争力强,综合月薪35k-65k。

职位详情

关于这个职位

加入英伟达,参与构建下一代AI高性能内核开发语言——CUTLASS DSL

你将负责设计Python原生的GPU内核开发语言,并构建MLIR编译器和代码生成流水线,与全球顶尖的架构、研究和软件团队协作,推动AI计算性能的极限

最低要求

计算机科学、软件工程或相关领域的硕士、博士或同等经验

年以上相关工作经验
优秀的Python编程能力和扎实的C++功底
有DSL、编译器或代码生成系统的实际经验
熟练掌握MLIR/LLVM技术栈,包括IR设计和Pass优化
出色的沟通能力和在高度协作环境中工作的能力

工作职责

设计、开发和优化CUTLASS DSL——一种用于高性能GPU内核开发的Python原生语言

构建和推进支撑CUTLASS DSL技术栈的MLIR方言、lowering passes和代码生成流程
推动创新,提升内核编译速度,同时保持与CUTLASS C++相当的运行性能
与架构、研究、软件产品团队以及开源社区紧密合作,将前沿优化引入实际产品

优先资格

深入了解CUDA GPU编程模型、GPU微架构以及性能分析和优化技术

熟悉CuTe生态系统中的关键高性能计算抽象,如Layout、Tile、MMA和TMA

AI 洞察

优缺点分析

优点

  • 身处AI硬件最前沿,直接参与影响行业性能标准的工具链开发,技能积累含金量极高
  • 英伟达平台资源丰富,可与全球顶尖的架构师和研究员合作,视野开阔
  • CUTLASS DSL是开源项目,工作成果会被全球开发者使用,成就感强
  • 薪资和福利在行业内极具竞争力,且稳定
  • 对编译器和GPU底层理解要求极高,学习曲线陡峭,需要持续投入
  • 工作强度可能较大,因为涉及多团队协作和开源社区维护

缺点 / 挑战

  • 职位级别较高,需独立解决复杂问题并推动创新,压力不小
  • 适合对编译器、GPU和AI性能优化有浓厚兴趣,且具备扎实系统编程能力的技术专家,渴望在顶尖平台挑战自我

角色解读

  • 成为GPU编译器领域的专家,主导下一代AI编译器架构设计
  • 向技术领导力方向发展,带领编译器或性能优化团队
  • 横向拓展至芯片架构协同设计,参与NVIDIA未来GPU架构规划
  • 设计和开发Python原生的GPU内核开发语言CUTLASS DSL,定义语法和语义
  • 构建MLIR方言和lowering passes,将高级语言描述高效编译为GPU可执行代码
  • 优化编译器性能,加速内核编译过程,同时保证生成代码与手写C++相当
  • 与架构、研究和产品团队协作,将最新硬件特性集成到编译工具链中
  • 扎实的Python和C++编程能力,能写出高效、可维护的代码
  • 深入理解编译器技术,特别是MLIR/LLVM框架,包括IR设计、Pass优化和代码生成
  • 具备DSL或代码生成系统的实践经验,理解语言设计与实现的挑战
  • 优秀的沟通协作能力,能在跨国团队和开源社区中有效工作

申请策略

  • 在求职信中具体说明你对CUTLASS DSL或相关项目的了解,展示热情
  • 准备一个技术分享主题,如“如何设计一个GPU内核DSL”,在面试中主动展示思考
  • 突出编译器或DSL相关项目经验,例如自己实现的编译器、参与过的MLIR/LLVM贡献
  • 强调CUDA/GPU性能优化案例,量化性能提升(如提速百分比)
  • 展示Python和C++的深度,可附上GitHub链接
  • 提及开源贡献和论文发表,尤其是编译、PL或高性能计算领域
  • 熟悉MLIR教程和Toy语言示例,加深对Dialect和Pass的理解
  • 阅读CUTLASS源码和CuTe库,理解现有的高性能抽象

面试指南

  • 对于设计和项目类问题,采用STAR法则:情境、任务、行动、结果,突出你的贡献和思考
  • 对于编译器原理问题,先给出定义,再结合实际例子,最后讨论权衡(trade-off)
  • 对于性能优化问题,先分析瓶颈可能来源(计算、访存、指令发射),再提出分析方法(profiling、微基准测试),最后给出优化措施
  • 请描述你设计或参与过的编译器或DSL项目,面临的主要挑战是什么?
  • MLIR的Dialect和Pass是如何工作的?你能举例说明如何优化一个Pass?
  • 如何理解GPU的Tile和MMA操作?在编译器层面如何抽象它们?
  • 如果你需要将一段Python DSL代码编译为CUDA内核,你会如何设计lowering流程?
  • 当CUTLASS DSL生成的代码性能不如手写C++时,你如何定位和优化?

匹配度报告

72
综合匹配度

顶级AI芯片巨头、GPU编译器前沿、高薪高成长,但加班和现场办公是常态。

适合人群
最适合追求技术成长、渴望站在AI基础设施前沿、不介意高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活30
使命价值80

薪资福利匹配

85较高

英伟达作为AI芯片巨头,提供极具竞争力的薪资和优厚福利,上市大厂稳定性高,补偿性动机满足程度较高。

薪资信号未披露(AI估算:35K-65K/月)

成长发展匹配

95较高

该职位位于AI编译技术最前沿,涉及MLIR、DSL、GPU等核心领域,技能成长空间巨大,且有开源社区和内部培训资源。

技术前沿前沿/新兴技术
技术栈MLIR、LLVM、DSL、GPU、CUDA、CUTLASS、编译器
业务类型profit_center

工作生活匹配

30较低

仅现场办公,上海和北京核心地段(市中心或科技园),未提及弹性工作或WLB信号,典型大厂高强度工作节奏。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

80较高

参与构建开源AI基础设施,直接影响全球AI开发者生产力,行业影响力大;但英伟达作为商业公司,使命导向不如非营利组织强烈。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度开拓性创新(行业首创)
Watch Jobs