Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Pony AI logo
小马智行
软件工程师 - pytorch训练框架国产芯片适配
立即应聘

软件工程师 - pytorch训练框架国产芯片适配

发布于 5 天前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
软件工程
PyTorch
CUDA
GPU编程
训练框架
国产Gpu
大规模训练集群
平头哥
自定义算子

AI 估算 · 35k–55k

该职位要求国产GPU迁移经验,属于稀缺技能,在北京大型企业,薪资竞争力强。

职位详情

关于这个职位

该职位负责将前沿自动驾驶模型的PyTorch训练从Nvidia GPU迁移至国产GPU(如阿里平头哥),并进行性能优化和大规模训练集群管理

需要精通国产GPU训练框架和CUDA编程,具备优秀的Python和GPU编程能力
适合有实际迁移经验和深度学习训练背景的工程师

最低要求

有把pytorch训练任务,从Nvidia迁移到阿里平头哥等某一家国产训练GPU的经验

精通某一家国产训练GPU训练框架
熟悉GPU设计理念,熟悉CUDA编程
熟悉pytorch训练框架,能够分析训练性能瓶颈
优秀的python、GPU编程能力

工作职责

把基于Nvidia GPU的pytorch训练,迁移到阿里平头哥等国产训练GPU上

把基于CUDA实现的自定义算子,迁移到国产训练GPU上
把pytorch中的一些复杂算子,迁移到国产训练GPU上
深入分析国产GPU训练芯片的设计和软件接口,充分挖掘GPU性能
深入了解自动驾驶领域的各类前沿模型设计,深入分析模型训练瓶颈
管理大规模训练集群,提升GPU利用率

优先资格

有过GPU自定义算子的开发经验

AI 洞察

优缺点分析

优点

  • 技能稀缺性强:国产GPU迁移经验目前市场人才稀少,职业壁垒高
  • 行业前景好:自动驾驶和国产芯片都是国家重点发展方向,长期需求稳定
  • 公司平台优质:小马智行为自动驾驶头部企业,技术积累深厚
  • 生态不成熟:国产GPU软件栈可能不够完善,需要自行解决很多底层问题
  • 工作强度可能较大:涉及大规模集群管理,可能需要on-call处理训练任务问题

缺点 / 挑战

  • 技术难度高:需要同时理解Nvidia CUDA生态和国产GPU架构,调试和优化挑战大
  • 适合有GPU编程和训练框架迁移经验,对国产芯片生态有信心,喜欢挑战底层性能优化的工程师

角色解读

  • 可以向国产GPU生态专家或高性能计算架构师方向发展,深入芯片底层优化
  • 进入自动驾驶AI基础设施团队,成为训练平台的核心架构师
  • 随着国产芯片兴起,该领域人才稀缺,未来可选择面广,包括芯片厂商或大厂AI平台
  • 负责将基于Nvidia GPU的PyTorch训练迁移到国产GPU(如平头哥)上,包括自定义算子和复杂算子的移植
  • 深入分析国产GPU的硬件设计和软件接口,进行性能调优,充分挖掘芯片潜力
  • 管理大规模训练集群,优化GPU利用率,保障自动驾驶模型训练的高效运行
  • 精通PyTorch训练框架,能够分析训练性能瓶颈
  • 精通CUDA编程,熟悉GPU设计理念
  • 熟悉至少一家国产GPU训练框架(如平头哥)
  • 优秀的Python和GPU编程能力,有自定义算子开发经验优先

申请策略

  • 面试前了解小马智行在训练框架方面的技术博客,展示对公司的兴趣
  • 可以准备一个关于国产GPU迁移的案例分析,展现技术深度
  • 重点突出实际的GPU迁移项目经验,特别是从Nvidia到国产GPU的完整案例
  • 强调CUDA编程和算子优化的具体成果,如性能提升百分比
  • 展示对PyTorch底层机制的了解,如自定义算子、通信优化等
  • 如有大规模集群管理经验,描述管理规模、调度策略和优化效果
  • 提前学习阿里平头哥等国产GPU的编程手册和工具链,熟悉其软件栈
  • 复习CUDA编程高级技巧,如shared memory优化、warp shuffle等

面试指南

  • 技术问题采用STAR方法:情境-任务-行动-结果,突出具体问题和量化成果
  • 性能优化问题:先定位瓶颈(profile),再分析原因,最后提出优化方案,并验证效果
  • 架构对比问题:从硬件设计、内存模型、软件栈等维度系统性比较,展现深度理解
  • 请描述你过去将PyTorch模型从Nvidia迁移到国产GPU的完整流程和遇到的挑战
  • 如何分析PyTorch训练的性能瓶颈?请举例说明
  • CUDA中的warp shuffle如何工作?在自定义算子中如何利用?
  • 国产GPU和Nvidia GPU在架构上有什么主要差异?如何针对优化?
  • 大规模训练集群中如何提高GPU利用率?有哪些常见问题和解决方案?

匹配度报告

68
综合匹配度

高成长性的国产GPU适配岗位,技术稀缺但工作强度和通勤成本较高。

适合人群
最看重技术成长和前沿领域探索,对WLB要求不高,能接受现场办公的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展88
工作生活40
使命价值75

薪资福利匹配

70中等

薪资水平较高,但JD未明确具体福利,考虑到公司规模和融资阶段,整体补偿性中等偏上。

薪资信号未披露(AI估算:35K-55K/月)

成长发展匹配

88较高

技术栈前沿(国产GPU+自动驾驶),技能稀缺,成长空间大,但JD未提及明确晋升通道。

技术前沿前沿/新兴技术
技术栈PyTorch、CUDA、国产GPU、平头哥、训练框架
业务类型ambiguous

工作生活匹配

40较低

仅现场办公,未提远程或弹性,北京通勤成本高,且可能涉及集群管理加班。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

75中等

自动驾驶行业有社会价值,国产芯片替代有战略意义,但JD未明确使命导向。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小马智行 的其他在招职位

  • 大模型算法工程师-广州/北京

    小马智行 · 北京市
    AI 估算 · 30k-60k
  • C++实习生 - 仿真分析与问题复现 - 北京海淀

    小马智行 · 北京市
    AI 估算 · 4k-8k
  • C++实习生 - 性能优化 - 北京海淀

    小马智行 · 北京市
    AI 估算 · 5k-8k
  • C++实习生 - 仿真优化 - 深圳

    小马智行 · 深圳市
    AI 估算 · 4k-8k
  • 高级测试工程师 - 需海外高频出差

    小马智行 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • AI全栈工程师(AI Coding 方向)

    小红书 · 北京市
    AI 估算 · 45k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 40k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 高级/资深iOS开发工程师(MJ035494)

    携程 · 上海市
    AI 估算 · 25k-45k
  • Staff Machine Learning Engineer, ML Infrastructure - Offline

    Unity Technologies · 上海市
    AI 估算 · 40k-70k

小马智行 的其他在招职位

  • 大模型算法工程师-广州/北京

    小马智行 · 北京市
    AI 估算 · 30k-60k
  • C++实习生 - 仿真分析与问题复现 - 北京海淀

    小马智行 · 北京市
    AI 估算 · 4k-8k
  • C++实习生 - 性能优化 - 北京海淀

    小马智行 · 北京市
    AI 估算 · 5k-8k
  • C++实习生 - 仿真优化 - 深圳

    小马智行 · 深圳市
    AI 估算 · 4k-8k
  • 高级测试工程师 - 需海外高频出差

    小马智行 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • AI全栈工程师(AI Coding 方向)

    小红书 · 北京市
    AI 估算 · 45k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 40k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 高级/资深iOS开发工程师(MJ035494)

    携程 · 上海市
    AI 估算 · 25k-45k
  • Staff Machine Learning Engineer, ML Infrastructure - Offline

    Unity Technologies · 上海市
    AI 估算 · 40k-70k