
字节跳动
硬件加速训练AI Infra工程师-Data
硬件加速训练AI Infra工程师-Data
发布于 大约 8 小时前普通员工/个人贡献者
西安市
中级经验
全职员工
仅现场办公
学历未注明
软件工程
GPU
PyTorch
硬件加速
并行计算
分布式训练
NPU
Megatron-LM
FSDP
算子开发
AI 估算 · 20k–40k
AI Infra工程师技术门槛高,市场稀缺,西安薪资相比一线有竞争力。
职位详情
关于这个职位
该职位负责自研硬件上的训练框架开发与优化,涉及PyTorch、Megatron等框架,支撑豆包等大模型训练任务
需要开发分布式并行策略和算子,进行性能调优
适合有1-5年GPU或异构硬件训练开发经验的工程师,能深入底层优化
最低要求
-5年异构硬件、GPU相关领域训练开发经验,熟悉PyTorch、FSDP、Megatron-LM、VeRL分布式训练框架
对数据并行、模型并行、分布式数据并行等常见训练模式有深入理解
参与过硬件加速器训练相关研发工作,包含Torch Compiler、算子开发、编译调度优化等
有主动学习、快速解决问题的能力和自我驱动力
工作职责
负责自研硬件训练框架开发(Torch、Megatron、Dtensor等)
对接业务大模型例如豆包、Seedance等模型在自研硬件上训练任务支持
开发DP、SP、TP、PP等分布式并行方式并且优化
训练业务通信、计算、通算融合算子研发以及性能优化
优先资格
有大模型训练百、千卡以上集群训练落地经验
有异构硬件、NPU等训练、推理开发经验,对硬件比较了解
熟悉计算机体系结构和并行计算
有GPU、FPGA或AI芯片相关的开发和评测经验
AI 洞察
优缺点分析
优点
- 处于AI大模型风口,自研硬件训练是国内稀缺方向,技术积累价值高
- 字节跳动平台资源丰富,能接触到大规模真实训练场景
- 团队技术氛围浓厚,有机会与顶尖工程师合作,快速成长
- 薪资在西安有竞争力,且大厂福利体系完善
- 工作强度较大,大模型训练任务紧急时可能需要加班
- 技术难度高,需同时掌握框架、算子、硬件等多方面知识
缺点 / 挑战
- 自研硬件生态尚不成熟,需要从零搭建和适配,挑战多
- 适合对AI底层技术有热情、喜欢挑战复杂问题、愿意深入硬件软件协同优化的工程师
角色解读
- 技术纵深发展:成为硬件加速训练领域的专家,主导下一代训练框架设计
- 横向拓展:向AI系统架构师方向成长,覆盖更多底层软硬件协同领域
- 管理路线:带领小团队负责特定训练模块或业务支持,逐步转向技术管理
- 开发和优化自研硬件上的训练框架,如基于PyTorch、Megatron等定制分布式训练流程
- 为豆包等大模型提供训练支持,实现数据并行、模型并行等并行策略
- 研发通信、计算融合算子,提升训练效率和硬件利用率
- 参与底层算子开发和性能调优,解决大规模训练中的瓶颈问题
- 精通PyTorch、Megatron-LM、FSDP等分布式训练框架
- 深入理解数据并行、模型并行、流水线并行等分布式训练原理
- 具备CUDA/算子开发经验,熟悉Torch Compiler或编译优化
- 有异构硬件(如GPU、NPU)训练或推理开发经验
申请策略
- 在简历和面试中强调解决问题的具体案例和自我驱动力
- 了解字节跳动自研硬件(如火山引擎)的布局,展现对业务的兴趣
- 突出分布式训练项目经验,尤其是多机多卡、大规模集群场景
- 展示底层优化成果,如算子性能提升、训练吞吐量提升等具体数据
- 体现对PyTorch、Megatron等框架的源码理解或二次开发经历
- 若有硬件加速器(如GPU、NPU)相关开发经验,务必详细描述
- 复习计算机体系结构和并行计算基础知识,特别是内存层次、通信拓扑
- 动手实践Megatron-LM或FSDP的源码,理解其并行策略实现
面试指南
- 使用STAR法则(情境、任务、行动、结果)来回答项目经验问题
- 对于技术原理题,先给出核心概念,再深入细节,最后结合实际经验
- 遇到开放式问题,先明确问题范围,再分点阐述,尽可能结构化
- 请详细解释Megatron-LM中的张量并行和流水线并行是如何实现的?
- 在训练千卡规模模型时,你遇到过哪些通信瓶颈?如何优化?
- 描述一个你优化算子性能的案例,包括分析、实现和效果
- 如何评估一个硬件加速器对训练框架的适配难度?
- 谈谈你对Torch Compiler工作原理的理解,以及如何利用它进行训练加速?
匹配度报告
74
综合匹配度
大厂AI Infra岗位,前沿技术栈,薪资有竞争力,WLB一般。
适合人群
适合追求技术成长、愿意在AI前沿领域深耕的求职者,对薪资和成长有较高期望,能接受一定的加班。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展85
工作生活50
使命价值85
薪资福利匹配
75中等
字节跳动作为上市大厂,薪资和福利在行业内具有竞争力,但西安薪资相比一线城市略低,且JD未明确具体数字。
薪资信号未披露(AI估算:20K-40K/月)
成长发展匹配
85较高
岗位涉及自研硬件训练框架和大模型支持,技术前沿性强,能接触最新分布式训练技术,成长空间大。
技术前沿前沿/新兴技术
技术栈PyTorch、Megatron-LM、FSDP、分布式训练、Torch Compiler
业务类型ambiguous
工作生活匹配
50较低
工作地点为西安现场办公,未提及弹性工作或远程,大厂通常工作强度较大,WLB一般。
工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)
使命价值匹配
85较高
AI大模型领域高速发展,自研硬件训练对推动国产AI基础设施有重要意义,社会价值较高。
行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度开拓性创新(行业首创)
字节跳动 的其他在招职位
相似职位推荐
Watch Jobs