Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
AI芯片系统软件架构师/工程师-NPU
立即应聘

AI芯片系统软件架构师/工程师-NPU

发布于 大约 1 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
本科
深度学习
CUDA
ROCm
驱动开发
NPU
GPGPU
Firmware
计算机体系架构

AI 估算 · 35k–65k

高级技术岗,AI芯片热门,字节大厂,薪资竞争力强,中位数50k/月

职位详情

关于这个职位

负责自研AI加速芯片NPU的系统软件栈开发与软硬协同验证,包括Firmware、驱动、Runtime等,需要深入理解GPGPU/NPU架构和深度学习,与芯片设计团队紧密协作,是AI芯片落地的关键角色

最低要求

本科及以上学历,计算机、体系结构等相关专业

熟悉Linux C/C++开发,有扎实的编程基础
有GPGPU/NPU芯片项目研发经验,熟悉国产厂家GPU计算产品,熟悉CUDA/ROCm等GPU软件栈
熟悉计算机体系架构,对深度学习有深入的理解,对GPGPU/NPU/CIM存算体系结构至少熟悉一种,理解其微架构、主要指令集等
有GPGPU/NPU Firmware/Linux驱动开发经验,对内存管理、Kernel任务调度、RAS等有实际开发调试经验
熟悉第三方NPU IP的软件栈移植集成,结合SoC架构进行性能分析优化

工作职责

跟踪GPGPU/NPU行业最新动态、产品与技术架构,分析公司内部业务系统需求,结合自研芯片架构,输出系统软硬件协同设计方案

负责自研AI加速芯片系统软件栈的开发交付,包括芯片设备侧Firmware/Host侧驱动/系统管理诊断工具
负责自研AI加速芯片的NPU/CIM存算方向的软硬协同验证,性能分析优化,基于可编程接口进行算子用例开发
负责NPU IP的软件栈移植适配与集成,包括NPU IP的Firmware/驱动/Runtime/SDK

优先资格

加分项:

有AI相关研发经验,熟悉CUDA编程,熟悉AI框架,对一种或者多种网络模型结构有深入理解
擅长跨团队沟通交流协作,有项目或团队管理经验

AI 洞察

优缺点分析

优点

  • 自研AI芯片是前沿技术方向,NPU/CIM属于热门领域,技术积累含金量高
  • 字节跳动平台大,资源丰富,项目有实际产品落地,影响力广泛
  • 深入底层系统软件栈,提升软硬协同能力,职业天花板高
  • 技术复杂度高,需要同时掌握硬件架构、驱动、算法等多方面知识
  • 对新技术跟踪要求高,需要持续学习GPU/NPU行业最新动态
  • 适合热爱底层系统软件、对芯片架构有浓厚兴趣、愿意深入钻研硬核技术的工程师

缺点 / 挑战

  • 工作强度可能较大,芯片项目周期长,交付压力明显

角色解读

  • 从芯片软件工程师发展到系统架构师,主导芯片软件栈的整体设计
  • 横向拓展到AI算法优化或芯片硬件设计,成为软硬全栈专家
  • 在字节内部可转向AI平台、数据中心等方向,技术影响力大
  • 跟踪GPGPU/NPU行业趋势,分析内部业务需求,设计软硬件协同方案
  • 开发自研AI芯片的系统软件栈:Firmware、驱动、诊断工具等
  • 进行NPU/CIM存算方向的软硬协同验证和性能优化,开发算子用例
  • 移植和集成第三方NPU IP的软件栈,确保在SoC上高效运行
  • 精通Linux C/C++编程,有扎实的系统编程基础
  • 深入理解GPGPU/NPU体系结构、微架构和指令集
  • 具备Firmware/Linux驱动开发经验,熟悉内存管理、任务调度、RAS
  • 了解深度学习框架和模型,熟悉CUDA/ROCm等GPU软件栈

申请策略

  • 了解字节跳动自研芯片(如RISC-V、AI芯片)的公开信息,面试中展现兴趣
  • 准备一个完整的芯片软件栈项目案例,从设计到实现再到优化,用STAR法则表达
  • 突出GPGPU/NPU项目经验,详细描述你在Firmware/驱动/软件栈方面的具体贡献
  • 强调对CUDA/ROCm等计算栈的熟悉程度,以及深度学习背景
  • 如果有硬核性能优化案例(如内存管理、任务调度等),重点展示
  • 展示跨团队协作或项目管理经验(加分项),体现沟通能力
  • 补充学习NPU/CIM架构的微架构细节,阅读相关论文或白皮书
  • 熟悉AI框架(TensorFlow/PyTorch)的算子实现和性能调优

面试指南

  • 对于架构对比类问题:先定义概念,再列出关键差异(如计算单元、内存层次、指令集),最后结合实际应用场景说明
  • 对于项目经验类问题:采用STAR法则(情境、任务、行动、结果),突出你的技术决策和量化成果
  • 对于优化类问题:从分析瓶颈、提出方案、实施验证、效果评估的步骤展开,体现系统思维
  • 请解释GPGPU和NPU在架构上的主要区别,以及各自的适用场景?
  • 详细描述你之前参与的Firmware或驱动开发项目,遇到过哪些挑战?
  • 如何优化一个深度学习算子在NPU上的性能?请给出具体方法
  • 什么是RAS(可靠性、可用性、可服务性)?在芯片软件中如何实现?
  • 如果需要在新的SoC上移植一个NPU IP,你会如何规划软件栈适配工作?

匹配度报告

71
综合匹配度

字节AI芯片系统软件岗,前沿技术栈,薪资优厚,但工作强度和WLB一般

适合人群
适合追求技术深度和职业成长、愿意接受较高工作强度的硬核工程师
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值70

薪资福利匹配

85较高

字节跳动作为已上市大厂,薪资福利处于行业领先水平,但JD未明确具体数额。综合判断补偿性动机满足度较高。

薪资信号未披露(AI估算:35K-65K/月)

成长发展匹配

90较高

职位涉及前沿NPU/CIM技术,软硬协同深度,个人成长空间大,是芯片系统领域的高价值岗位。

技术前沿前沿/新兴技术
技术栈NPU、GPGPU、CIM、CUDA、ROCm、深度学习
业务类型profit_center

工作生活匹配

40较低

北京现场办公,未提及弹性工作或WLB,字节加班文化普遍,生活化动机满足度偏低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI芯片属于高速增长赛道,自研芯片对国家技术自主有正向意义,但职位本身偏技术执行,社会使命感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 抖音策略产品经理-内容理解

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 云服务器镜像架构师-计算

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家补贴效率运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 前端开发工程师-中国交易与广告

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 视觉设计Leader-TikTok(上海)

    字节跳动 · 上海市
    AI 估算 · 30k-50k

字节跳动 的其他在招职位

  • 抖音策略产品经理-内容理解

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 云服务器镜像架构师-计算

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家补贴效率运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 前端开发工程师-中国交易与广告

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 视觉设计Leader-TikTok(上海)

    字节跳动 · 上海市
    AI 估算 · 30k-50k