ByteDance logo
字节跳动
硬件加速训练AI Infra工程师-Data

硬件加速训练AI Infra工程师-Data

发布于 大约 8 小时前

普通员工/个人贡献者

西安市
中级经验
全职员工
仅现场办公
学历未注明
软件工程
GPU
PyTorch
硬件加速
并行计算
分布式训练
NPU
Megatron-LM
FSDP
算子开发

AI 估算 · 20k–40k

AI Infra工程师技术门槛高,市场稀缺,西安薪资相比一线有竞争力。

职位详情

关于这个职位

该职位负责自研硬件上的训练框架开发与优化,涉及PyTorch、Megatron等框架,支撑豆包等大模型训练任务

需要开发分布式并行策略和算子,进行性能调优
适合有1-5年GPU或异构硬件训练开发经验的工程师,能深入底层优化

最低要求

-5年异构硬件、GPU相关领域训练开发经验,熟悉PyTorch、FSDP、Megatron-LM、VeRL分布式训练框架

对数据并行、模型并行、分布式数据并行等常见训练模式有深入理解
参与过硬件加速器训练相关研发工作,包含Torch Compiler、算子开发、编译调度优化等
有主动学习、快速解决问题的能力和自我驱动力

工作职责

负责自研硬件训练框架开发(Torch、Megatron、Dtensor等)

对接业务大模型例如豆包、Seedance等模型在自研硬件上训练任务支持
开发DP、SP、TP、PP等分布式并行方式并且优化
训练业务通信、计算、通算融合算子研发以及性能优化

优先资格

有大模型训练百、千卡以上集群训练落地经验

有异构硬件、NPU等训练、推理开发经验,对硬件比较了解
熟悉计算机体系结构和并行计算
有GPU、FPGA或AI芯片相关的开发和评测经验

AI 洞察

优缺点分析

优点

  • 处于AI大模型风口,自研硬件训练是国内稀缺方向,技术积累价值高
  • 字节跳动平台资源丰富,能接触到大规模真实训练场景
  • 团队技术氛围浓厚,有机会与顶尖工程师合作,快速成长
  • 薪资在西安有竞争力,且大厂福利体系完善
  • 工作强度较大,大模型训练任务紧急时可能需要加班
  • 技术难度高,需同时掌握框架、算子、硬件等多方面知识

缺点 / 挑战

  • 自研硬件生态尚不成熟,需要从零搭建和适配,挑战多
  • 适合对AI底层技术有热情、喜欢挑战复杂问题、愿意深入硬件软件协同优化的工程师

角色解读

  • 技术纵深发展:成为硬件加速训练领域的专家,主导下一代训练框架设计
  • 横向拓展:向AI系统架构师方向成长,覆盖更多底层软硬件协同领域
  • 管理路线:带领小团队负责特定训练模块或业务支持,逐步转向技术管理
  • 开发和优化自研硬件上的训练框架,如基于PyTorch、Megatron等定制分布式训练流程
  • 为豆包等大模型提供训练支持,实现数据并行、模型并行等并行策略
  • 研发通信、计算融合算子,提升训练效率和硬件利用率
  • 参与底层算子开发和性能调优,解决大规模训练中的瓶颈问题
  • 精通PyTorch、Megatron-LM、FSDP等分布式训练框架
  • 深入理解数据并行、模型并行、流水线并行等分布式训练原理
  • 具备CUDA/算子开发经验,熟悉Torch Compiler或编译优化
  • 有异构硬件(如GPU、NPU)训练或推理开发经验

申请策略

  • 在简历和面试中强调解决问题的具体案例和自我驱动力
  • 了解字节跳动自研硬件(如火山引擎)的布局,展现对业务的兴趣
  • 突出分布式训练项目经验,尤其是多机多卡、大规模集群场景
  • 展示底层优化成果,如算子性能提升、训练吞吐量提升等具体数据
  • 体现对PyTorch、Megatron等框架的源码理解或二次开发经历
  • 若有硬件加速器(如GPU、NPU)相关开发经验,务必详细描述
  • 复习计算机体系结构和并行计算基础知识,特别是内存层次、通信拓扑
  • 动手实践Megatron-LM或FSDP的源码,理解其并行策略实现

面试指南

  • 使用STAR法则(情境、任务、行动、结果)来回答项目经验问题
  • 对于技术原理题,先给出核心概念,再深入细节,最后结合实际经验
  • 遇到开放式问题,先明确问题范围,再分点阐述,尽可能结构化
  • 请详细解释Megatron-LM中的张量并行和流水线并行是如何实现的?
  • 在训练千卡规模模型时,你遇到过哪些通信瓶颈?如何优化?
  • 描述一个你优化算子性能的案例,包括分析、实现和效果
  • 如何评估一个硬件加速器对训练框架的适配难度?
  • 谈谈你对Torch Compiler工作原理的理解,以及如何利用它进行训练加速?

匹配度报告

74
综合匹配度

大厂AI Infra岗位,前沿技术栈,薪资有竞争力,WLB一般。

适合人群
适合追求技术成长、愿意在AI前沿领域深耕的求职者,对薪资和成长有较高期望,能接受一定的加班。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展85
工作生活50
使命价值85

薪资福利匹配

75中等

字节跳动作为上市大厂,薪资和福利在行业内具有竞争力,但西安薪资相比一线城市略低,且JD未明确具体数字。

薪资信号未披露(AI估算:20K-40K/月)

成长发展匹配

85较高

岗位涉及自研硬件训练框架和大模型支持,技术前沿性强,能接触最新分布式训练技术,成长空间大。

技术前沿前沿/新兴技术
技术栈PyTorch、Megatron-LM、FSDP、分布式训练、Torch Compiler
业务类型ambiguous

工作生活匹配

50较低

工作地点为西安现场办公,未提及弹性工作或远程,大厂通常工作强度较大,WLB一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

85较高

AI大模型领域高速发展,自研硬件训练对推动国产AI基础设施有重要意义,社会价值较高。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度开拓性创新(行业首创)
Watch Jobs