Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Nvidia logo
英伟达
Software Engineer, AI and DL Kernel Libraries
立即应聘

Software Engineer, AI and DL Kernel Libraries

发布于 大约 8 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
硕士
软件工程
深度学习
PyTorch
性能优化
编译器
CUDA
GPU编程
LLM推理
vLLM

AI 估算 · 35k–65k

英伟达是全球AI芯片领导者,该岗位为高级软件工程师,技能稀缺,上海薪资较高,预估月薪35k-65k,15薪。

职位详情

关于这个职位

该职位是英伟达AI与深度学习内核库团队的软件工程师,负责设计和优化GPU加速的深度学习库、LLM推理引擎和运行时系统

你将参与从底层内核到上层服务抽象的全栈开发,直接影响英伟达AI平台的性能
适合有CUDA、C/C++和深度学习框架经验,并对AI系统软件有热情的工程师

最低要求

计算机科学、电子工程或相关领域硕士学位,或同等经验

年以上相关行业、研究或系统软件开发经验(机器学习、深度学习系统、编译器或GPU软件)
高级别候选人要求更多经验
扎实的C/C++和Python编程技能,具有高性能软件开发经验
熟练的CUDA开发和GPU编程基础
深度学习框架(如PyTorch、JAX、TensorFlow或ONNX)的开发和使用经验
良好的线性代数、性能分析、性能分析和代码优化理解
设计面向性能敏感系统的软件抽象、API或高层系统架构的经验
熟悉现代机器学习和推理系统趋势,特别是LLM和生成式AI
高级候选人要求具备丰富的GPU内核开发和性能优化经验(例如CUDA C/C++、cuTile、Triton等)

工作职责

开发作为NVIDIA AI软件栈一部分的生产级软件,包括cuDNN、FlashInfer以及针对大语言模型推理工作负载的优化支持

创新并开发用于高效推理的新型AI系统技术,重点关注性能、可扩展性、可维护性和可用性
设计、实现和优化跨LLM推理、生成式AI、计算机视觉、自动驾驶和推荐系统等高影响力AI工作负载的内核
为深度学习库、LLM服务引擎和运行时系统设计和实现可扩展的软件抽象
构建并改进面向性能关键GPU工作负载的即时编译、代码生成和运行时技术
分析工作负载性能,调整当前软件,并为未来的软件和软硬件接口提出改进
与英伟达的深度学习框架、库、内核、编译器和GPU架构团队紧密合作
在相关领域贡献开源社区和生态系统集成,包括FlashInfer、vLLM和SGLang等项目

优先资格

具备推理引擎和运行时(如vLLM、SGLang、MLC、TensorRT-LLM等)的实操经验

有LLM推理和训练的领域特定编译器、代码生成或库解决方案背景
熟悉机器学习编译器或IR系统(如MLIR、Apache TVM、TensorIR等)
具备GPU性能建模、计算机架构或面向加速器的软件设计经验
在深度学习系统、编译器、内核或推理基础设施方面拥有开源项目所有权或重要贡献

AI 洞察

优缺点分析

优点

  • 行业顶尖平台:英伟达是AI计算领导者,技术栈最前沿
  • 技能积累:深入GPU底层优化和AI系统设计,职业含金量高
  • 影响力大:工作成果直接影响AI应用性能,参与开源生态
  • 薪酬竞争力强:薪资水平在行业内处于高位,福利完善
  • 技术门槛高:需要同时掌握系统软件、深度学习、GPU架构等多领域知识
  • 竞争激烈:团队汇聚全球顶尖人才,需要持续学习保持竞争力

缺点 / 挑战

  • 工作强度大:英伟达高绩效文化,项目周期紧张,可能需要应对高压力
  • 适合对AI系统底层优化有强烈兴趣,具备扎实的C++/CUDA功底,喜欢挑战技术难题并追求高性能的软件工程师

角色解读

  • 技术深耕:成为GPU计算和AI系统领域的专家,晋升为首席工程师
  • 架构演进:转向系统架构设计,主导下一代AI推理平台
  • 开源领袖:通过开源贡献建立行业影响力,成为技术社区核心维护者
  • 设计和优化GPU加速的深度学习内核库,如cuDNN、FlashInfer,提升LLM推理性能
  • 参与LLM推理引擎(如vLLM)的开发,优化运行时系统和软件抽象
  • 与硬件和编译器团队协作,分析性能瓶颈并提出软硬件接口改进方案
  • 贡献开源社区,推动生态集成
  • 精通C/C++和Python,具备高性能软件开发能力
  • 扎实的CUDA编程和GPU优化经验,熟悉深度学习框架(PyTorch、TensorFlow等)
  • 理解线性代数、性能分析和代码优化技术
  • 对AI推理系统和LLM架构有深入认识

申请策略

  • 研究英伟达的技术博客和开源的FlashInfer项目,展示你对他们的技术栈有深入了解
  • 在面试中强调你对性能优化的热情,用具体案例说明你如何分析并解决性能瓶颈
  • 突出CUDA内核开发或高性能计算项目经验,展示具体性能提升数据
  • 强调深度学习框架(PyTorch/TensorFlow)的使用或二次开发经历
  • 如有开源贡献(特别是AI推理相关),详细描述角色和影响
  • 列出编译器或LLM推理系统的相关工作经验
  • 深入学习CUDA编程模型和GPU架构,如通过《CUDA Programming》书籍
  • 动手实践vLLM、TensorRT-LLM等推理引擎,理解其源码和优化策略

面试指南

  • 对于性能优化问题,先明确目标和约束,然后通过profiling识别瓶颈,再提出优化方案(如内存合并、warp调度等),最后用数据验证
  • 对于系统设计问题,先理解需求和使用场景,然后抽象出核心组件,考虑可扩展性和易用性,最后给出接口示例
  • 如何优化一个CUDA attention kernel?请描述你从分析到实现的过程
  • 解释FlashAttention的原理以及它如何减少内存访问
  • 你在项目中遇到过的性能瓶颈是什么?你是如何定位和解决的?
  • 了解LLM推理中的batching策略吗?Compare continuous batching and static batching.
  • 如何设计一个可扩展的深度学习库接口?举例说明
  • 准备一个完整的CUDA kernel优化案例,从naive实现到最终优化,包含性能对比

职位点评

74
综合评分

英伟达AI内核库工程师,顶级技术栈、高成长性,但WLB一般。

更适合这类人
适合追求技术成长和前沿挑战,愿意投入高强度工作以换取顶尖技能积累的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展95
工作生活40
使命价值75

薪资福利

85较高

英伟达作为顶级AI公司,薪资和福利在行业内极具竞争力,但未在JD中明确提及,不过市场共识较高。

薪资信号市场水准 (35K-65K/月)

成长发展

95较高

该岗位技术栈前沿(LLM、GPU、编译器),团队顶尖,成长空间极大,且有机会贡献开源。

技术前沿前沿/新兴技术
技术栈CUDA、LLM、GPU、编译器、深度学习、推理系统
成长机会生产质量软件、创新、协作
业务类型profit_center

工作生活

40较低

JD未提及远程或弹性工作,典型硅谷风格高强度,WLB可能一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

75中等

AI领域发展迅速,工作推动AI技术进步,社会影响力正面,但公司层面更偏商业。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

英伟达 的其他在招职位

  • Senior AI Training Performance Engineer

    英伟达 · 上海市
    AI 估算 · 40k-70k
  • Solution Architect, Jetson Platform Edge Computing

    英伟达 · 北京市
    AI 估算 · 40k-70k
  • Senior PDM Business Analyst

    英伟达 · 深圳市
    AI 估算 · 25k-40k
  • Senior Segment Sales Manager

    英伟达 · 北京市
    AI 估算 · 60k-90k
  • Senior Custom SOC IP Verification Engineer

    英伟达 · 上海市
    AI 估算 · 40k-60k

相似职位推荐

  • 小米澎湃OS-AI工程架构师

    小米 · 南京市
    AI 估算 · 35k-55k
  • 微信小店-推荐算法专家工程师

    腾讯 · 广州市
    AI 估算 · 40k-70k
  • 微信-客户端开发工程师-AI方向

    腾讯 · 广州市
    AI 估算 · 18k-30k
  • 《洛克王国:世界》-开放世界手游服务器开发工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 前端技术开发工程师

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 25k-40k

英伟达 的其他在招职位

  • Senior AI Training Performance Engineer

    英伟达 · 上海市
    AI 估算 · 40k-70k
  • Solution Architect, Jetson Platform Edge Computing

    英伟达 · 北京市
    AI 估算 · 40k-70k
  • Senior PDM Business Analyst

    英伟达 · 深圳市
    AI 估算 · 25k-40k
  • Senior Segment Sales Manager

    英伟达 · 北京市
    AI 估算 · 60k-90k
  • Senior Custom SOC IP Verification Engineer

    英伟达 · 上海市
    AI 估算 · 40k-60k

相似职位推荐

  • 小米澎湃OS-AI工程架构师

    小米 · 南京市
    AI 估算 · 35k-55k
  • 微信小店-推荐算法专家工程师

    腾讯 · 广州市
    AI 估算 · 40k-70k
  • 微信-客户端开发工程师-AI方向

    腾讯 · 广州市
    AI 估算 · 18k-30k
  • 《洛克王国:世界》-开放世界手游服务器开发工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 前端技术开发工程师

    中国机械工业集团有限公司 · 北京市
    AI 估算 · 25k-40k