Deep Learning Performance Architect, CUTLASS DSL的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

英伟达

Deep Learning Performance Architect, CUTLASS DSL

立即应聘

Deep Learning Performance Architect, CUTLASS DSL

发布于大约 2 个月前

普通员工/个人贡献者

上海市 / 北京市

中级经验

全职员工

仅现场办公

硕士

软件工程

性能优化

编译器

CUDA

DSL

GPU

LLVM

MLIR

AI 估算 · 35k–65k

AI芯片巨头、高级技术岗、一线城市，薪资竞争力强，综合月薪35k-65k。

职位详情

关于这个职位

加入英伟达，参与构建下一代AI高性能内核开发语言——CUTLASS DSL

你将负责设计Python原生的GPU内核开发语言，并构建MLIR编译器和代码生成流水线，与全球顶尖的架构、研究和软件团队协作，推动AI计算性能的极限

最低要求

计算机科学、软件工程或相关领域的硕士、博士或同等经验

年以上相关工作经验

优秀的Python编程能力和扎实的C++功底

有DSL、编译器或代码生成系统的实际经验

熟练掌握MLIR/LLVM技术栈，包括IR设计和Pass优化

出色的沟通能力和在高度协作环境中工作的能力

工作职责

设计、开发和优化CUTLASS DSL——一种用于高性能GPU内核开发的Python原生语言

构建和推进支撑CUTLASS DSL技术栈的MLIR方言、lowering passes和代码生成流程

推动创新，提升内核编译速度，同时保持与CUTLASS C++相当的运行性能

与架构、研究、软件产品团队以及开源社区紧密合作，将前沿优化引入实际产品

优先资格

深入了解CUDA GPU编程模型、GPU微架构以及性能分析和优化技术

熟悉CuTe生态系统中的关键高性能计算抽象，如Layout、Tile、MMA和TMA

AI 洞察

优缺点分析

优点

身处AI硬件最前沿，直接参与影响行业性能标准的工具链开发，技能积累含金量极高
英伟达平台资源丰富，可与全球顶尖的架构师和研究员合作，视野开阔
CUTLASS DSL是开源项目，工作成果会被全球开发者使用，成就感强
薪资和福利在行业内极具竞争力，且稳定
对编译器和GPU底层理解要求极高，学习曲线陡峭，需要持续投入
工作强度可能较大，因为涉及多团队协作和开源社区维护

缺点 / 挑战

职位级别较高，需独立解决复杂问题并推动创新，压力不小
适合对编译器、GPU和AI性能优化有浓厚兴趣，且具备扎实系统编程能力的技术专家，渴望在顶尖平台挑战自我

角色解读

成为GPU编译器领域的专家，主导下一代AI编译器架构设计
向技术领导力方向发展，带领编译器或性能优化团队
横向拓展至芯片架构协同设计，参与NVIDIA未来GPU架构规划
设计和开发Python原生的GPU内核开发语言CUTLASS DSL，定义语法和语义
构建MLIR方言和lowering passes，将高级语言描述高效编译为GPU可执行代码
优化编译器性能，加速内核编译过程，同时保证生成代码与手写C++相当
与架构、研究和产品团队协作，将最新硬件特性集成到编译工具链中
扎实的Python和C++编程能力，能写出高效、可维护的代码
深入理解编译器技术，特别是MLIR/LLVM框架，包括IR设计、Pass优化和代码生成
具备DSL或代码生成系统的实践经验，理解语言设计与实现的挑战
优秀的沟通协作能力，能在跨国团队和开源社区中有效工作

申请策略

在求职信中具体说明你对CUTLASS DSL或相关项目的了解，展示热情
准备一个技术分享主题，如“如何设计一个GPU内核DSL”，在面试中主动展示思考
突出编译器或DSL相关项目经验，例如自己实现的编译器、参与过的MLIR/LLVM贡献
强调CUDA/GPU性能优化案例，量化性能提升（如提速百分比）
展示Python和C++的深度，可附上GitHub链接
提及开源贡献和论文发表，尤其是编译、PL或高性能计算领域
熟悉MLIR教程和Toy语言示例，加深对Dialect和Pass的理解
阅读CUTLASS源码和CuTe库，理解现有的高性能抽象

面试指南

对于设计和项目类问题，采用STAR法则：情境、任务、行动、结果，突出你的贡献和思考
对于编译器原理问题，先给出定义，再结合实际例子，最后讨论权衡（trade-off）
对于性能优化问题，先分析瓶颈可能来源（计算、访存、指令发射），再提出分析方法（profiling、微基准测试），最后给出优化措施
请描述你设计或参与过的编译器或DSL项目，面临的主要挑战是什么？
MLIR的Dialect和Pass是如何工作的？你能举例说明如何优化一个Pass？
如何理解GPU的Tile和MMA操作？在编译器层面如何抽象它们？
如果你需要将一段Python DSL代码编译为CUDA内核，你会如何设计lowering流程？
当CUTLASS DSL生成的代码性能不如手写C++时，你如何定位和优化？

职位点评

综合评分

顶级AI芯片巨头、GPU编译器前沿、高薪高成长，但加班和现场办公是常态。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

最适合追求技术成长、渴望站在AI基础设施前沿、不介意高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活30

使命价值80

薪资福利

85较高

英伟达作为AI芯片巨头，提供极具竞争力的薪资和优厚福利，上市大厂稳定性高，补偿性动机满足程度较高。

薪资信号未披露（AI估算：35K-65K/月）

成长发展

95较高

该职位位于AI编译技术最前沿，涉及MLIR、DSL、GPU等核心领域，技能成长空间巨大，且有开源社区和内部培训资源。

技术前沿前沿/新兴技术

技术栈MLIR、LLVM、DSL、GPU、CUDA、CUTLASS、编译器

业务类型profit_center

工作生活

30较低

仅现场办公，上海和北京核心地段（市中心或科技园），未提及弹性工作或WLB信号，典型大厂高强度工作节奏。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

80较高

参与构建开源AI基础设施，直接影响全球AI开发者生产力，行业影响力大；但英伟达作为商业公司，使命导向不如非营利组织强烈。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度开拓性创新（行业首创）

英伟达的其他在招职位

相似职位推荐

Watch Jobs

Deep Learning Performance Architect, CUTLASS DSL

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Firmware Engineer

Senior CUDA Test Development Software Engineer, SDET

Deep Learning Performance Architect

CPU Performance Developer Technology Engineer

Senior Computer Vision and Deep Learning Hardware Architect

座舱车载测试架构师（AI测试方向）

【REDstar】创意与内容生成算法工程师-商业广告

全栈开发工程师-AI搜索（后端）

【REDstar】内容安全算法工程师-治理业务

【REDstar】AI Infra工程师

英伟达的其他在招职位

Firmware Engineer

Senior CUDA Test Development Software Engineer, SDET

Deep Learning Performance Architect

CPU Performance Developer Technology Engineer

Senior Computer Vision and Deep Learning Hardware Architect

相似职位推荐

座舱车载测试架构师（AI测试方向）

【REDstar】创意与内容生成算法工程师-商业广告

全栈开发工程师-AI搜索（后端）

【REDstar】内容安全算法工程师-治理业务

【REDstar】AI Infra工程师

Deep Learning Performance Architect, CUTLASS DSL

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

英伟达 的其他在招职位

Firmware Engineer

Senior CUDA Test Development Software Engineer, SDET

Deep Learning Performance Architect

CPU Performance Developer Technology Engineer

Senior Computer Vision and Deep Learning Hardware Architect

相似职位推荐

座舱车载测试架构师（AI测试方向）

【REDstar】创意与内容生成算法工程师-商业广告

全栈开发工程师-AI搜索（后端）

【REDstar】内容安全算法工程师-治理业务

【REDstar】AI Infra工程师

英伟达的其他在招职位