字节跳动的训练高性能计算工程师-Seed薪资是多少？

该职位薪资范围为 35k–65k（人民币/月）。

训练高性能计算工程师-Seed的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的训练高性能计算工程师-Seed有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

训练高性能计算工程师-Seed

立即应聘

训练高性能计算工程师-Seed

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

大模型训练

高性能计算

CUDA

NCCL

PyTorch

RDMA

TVM

AI 估算 · 35k–65k

大厂前沿AI岗位，技能稀缺，薪资有竞争力，参考市场行情。

职位详情

关于这个职位

该职位是字节跳动Seed团队的高性能计算工程师，负责大规模AI模型训练系统中关键算子的设计与实现

你需要精通C++/Python和CUDA编程，针对不同AI加速器进行极致性能优化，并参与算法与工程联合设计

适合对高性能计算和大模型训练有热情的技术人员

最低要求

掌握C/C++，精通Python，熟练掌握PyTorch

熟悉CUDA编程，熟悉NVIDIA或其他加速器硬件架构细节和优化点

熟悉Triton/TVM/Torch.Compile等编译工具

熟悉Nccl或Nvshmem通信算子的底层实现，熟悉主流的RDMA/NVLINK的通信拓扑

熟悉主流文本大模型/多模态大模型/Diffusion类模型架构以及训练方式

工作职责

负责大规模训练系统中的关键高性能算子的设计与实现

针对不同AI加速器的硬件架构，对训练算子性能做极致的性能优化

针对大模型训练系统中不同分布式并行的特点，实现针对计算和通信的极致优化

算法和工程的联合设计，追求系统性能和算法效果的最优平衡点

优先资格

精通CUTLASS/Cute dsl开发

对Flash Attention的实现有深入的理解和开发调优经验

有Triton/Tilelang等编译框架底层优化经验

有通信/计算Overlap算子的开发经验

AI 洞察

优缺点分析

优点

接触最前沿的AI大模型训练技术，参与行业领先项目
字节跳动Seed团队技术实力强，能快速积累专业经验
高薪与良好的职业发展平台，期权和福利丰厚
技术难度高，需要持续学习最新硬件和算法
工作强度可能较大，面临紧迫的项目里程碑
对底层系统理解要求深入，调试和优化过程复杂
适合对高性能计算和AI系统有浓厚兴趣，愿意攻克技术难题的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

向资深高性能计算架构师发展，主导大规模训练系统的设计与优化
向技术专家方向深耕，成为AI芯片或编译器领域的权威
也可转向AI系统研究员，探索下一代训练基础设施
负责设计和实现大规模训练系统中的高性能计算算子，如矩阵乘法、注意力机制等
针对不同AI加速器（如NVIDIA GPU）的硬件架构，进行极致性能优化，包括内存访问、指令调度等
优化分布式训练中的计算与通信重叠，提升整体训练效率
与算法团队合作，联合设计系统与模型，平衡性能与效果
精通C/C++和Python，熟练使用PyTorch框架
深入掌握CUDA编程，熟悉NVIDIA GPU架构细节和优化技巧
熟悉编译工具如Triton、TVM或Torch.Compile，能进行算子自动调优
理解分布式通信原语（NCCL/NVSHMEM），熟悉RDMA和NVLink拓扑

申请策略

了解字节跳动Seed团队的研究方向，在面试中展现兴趣和匹配度
准备一个端到端的训练优化案例，展示问题分析和解决能力
突出CUDA相关项目经验，尤其是大规模训练系统的优化案例
强调分布式训练、通信优化或算子调优的成果
展示对主流大模型架构（如Transformer、Diffusion）的理解
学习Triton或TVM等编译工具，进行实践练习
深入阅读Flash Attention、NCCL源码等经典实现
熟悉至少一种AI加速器（如NVIDIA、AMD）的硬件文档

面试指南

使用STAR方法：情境、任务、行动、结果，突出技术细节和量化提升
从系统角度思考：先分析瓶颈（计算/通信/内存），再提出针对性优化方案
请描述一次你优化CUDA kernel的经历，如何分析瓶颈并提升性能？
Flash Attention的实现原理是什么？你会如何进一步优化？
在多机多卡训练中，如何处理通信与计算的overlap？
谈谈你对Triton或TVM的理解，它们在什么场景下更有效？
如何选择分布式并行策略（数据并行、模型并行、流水线并行等）？
复习CUDA优化技巧：memory coalescing, shared memory, warp shuffle等

职位点评

综合评分

高薪大厂、前沿AI训练系统、技术难度大、成长空间大，但工作强度不确定。

更适合这类人

最适合追求技术突破、高薪资和职业成长的求职者，对工作生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活40

使命价值75

薪资福利

85较高

高薪岗位，字节跳动福利优厚，但JD未明确列出具体福利。

薪资信号偏高 (35K-65K/月)

成长发展

95较高

岗位属于AI训练基础设施核心，技术前沿，成长空间极大。

技术前沿前沿/新兴技术

技术栈CUDA、Triton、TVM、NCCL、PyTorch、大模型训练、RDMA

业务类型profit_center

工作生活

40较低

仅现场办公，未提及弹性工作或远程，字节通常工作强度较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

AI领域高速增长，但对社会价值影响中性，技术导向。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

训练高性能计算工程师-Seed

立即应聘

训练高性能计算工程师-Seed

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

大模型训练

高性能计算

CUDA

NCCL

PyTorch

RDMA

TVM

AI 估算 · 35k–65k

大厂前沿AI岗位，技能稀缺，薪资有竞争力，参考市场行情。

职位详情

关于这个职位

该职位是字节跳动Seed团队的高性能计算工程师，负责大规模AI模型训练系统中关键算子的设计与实现

你需要精通C++/Python和CUDA编程，针对不同AI加速器进行极致性能优化，并参与算法与工程联合设计

适合对高性能计算和大模型训练有热情的技术人员

最低要求

掌握C/C++，精通Python，熟练掌握PyTorch

熟悉CUDA编程，熟悉NVIDIA或其他加速器硬件架构细节和优化点

熟悉Triton/TVM/Torch.Compile等编译工具

熟悉Nccl或Nvshmem通信算子的底层实现，熟悉主流的RDMA/NVLINK的通信拓扑

熟悉主流文本大模型/多模态大模型/Diffusion类模型架构以及训练方式

工作职责

负责大规模训练系统中的关键高性能算子的设计与实现

针对不同AI加速器的硬件架构，对训练算子性能做极致的性能优化

针对大模型训练系统中不同分布式并行的特点，实现针对计算和通信的极致优化

算法和工程的联合设计，追求系统性能和算法效果的最优平衡点

优先资格

精通CUTLASS/Cute dsl开发

对Flash Attention的实现有深入的理解和开发调优经验

有Triton/Tilelang等编译框架底层优化经验

有通信/计算Overlap算子的开发经验

AI 洞察

优缺点分析

优点

接触最前沿的AI大模型训练技术，参与行业领先项目
字节跳动Seed团队技术实力强，能快速积累专业经验
高薪与良好的职业发展平台，期权和福利丰厚
技术难度高，需要持续学习最新硬件和算法
工作强度可能较大，面临紧迫的项目里程碑
对底层系统理解要求深入，调试和优化过程复杂
适合对高性能计算和AI系统有浓厚兴趣，愿意攻克技术难题的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

向资深高性能计算架构师发展，主导大规模训练系统的设计与优化
向技术专家方向深耕，成为AI芯片或编译器领域的权威
也可转向AI系统研究员，探索下一代训练基础设施
负责设计和实现大规模训练系统中的高性能计算算子，如矩阵乘法、注意力机制等
针对不同AI加速器（如NVIDIA GPU）的硬件架构，进行极致性能优化，包括内存访问、指令调度等
优化分布式训练中的计算与通信重叠，提升整体训练效率
与算法团队合作，联合设计系统与模型，平衡性能与效果
精通C/C++和Python，熟练使用PyTorch框架
深入掌握CUDA编程，熟悉NVIDIA GPU架构细节和优化技巧
熟悉编译工具如Triton、TVM或Torch.Compile，能进行算子自动调优
理解分布式通信原语（NCCL/NVSHMEM），熟悉RDMA和NVLink拓扑

申请策略

了解字节跳动Seed团队的研究方向，在面试中展现兴趣和匹配度
准备一个端到端的训练优化案例，展示问题分析和解决能力
突出CUDA相关项目经验，尤其是大规模训练系统的优化案例
强调分布式训练、通信优化或算子调优的成果
展示对主流大模型架构（如Transformer、Diffusion）的理解
学习Triton或TVM等编译工具，进行实践练习
深入阅读Flash Attention、NCCL源码等经典实现
熟悉至少一种AI加速器（如NVIDIA、AMD）的硬件文档

面试指南

使用STAR方法：情境、任务、行动、结果，突出技术细节和量化提升
从系统角度思考：先分析瓶颈（计算/通信/内存），再提出针对性优化方案
请描述一次你优化CUDA kernel的经历，如何分析瓶颈并提升性能？
Flash Attention的实现原理是什么？你会如何进一步优化？
在多机多卡训练中，如何处理通信与计算的overlap？
谈谈你对Triton或TVM的理解，它们在什么场景下更有效？
如何选择分布式并行策略（数据并行、模型并行、流水线并行等）？
复习CUDA优化技巧：memory coalescing, shared memory, warp shuffle等

职位点评

综合评分

高薪大厂、前沿AI训练系统、技术难度大、成长空间大，但工作强度不确定。

更适合这类人

最适合追求技术突破、高薪资和职业成长的求职者，对工作生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展95

工作生活40

使命价值75

薪资福利

85较高

高薪岗位，字节跳动福利优厚，但JD未明确列出具体福利。

薪资信号偏高 (35K-65K/月)

成长发展

95较高

岗位属于AI训练基础设施核心，技术前沿，成长空间极大。

技术前沿前沿/新兴技术

技术栈CUDA、Triton、TVM、NCCL、PyTorch、大模型训练、RDMA

业务类型profit_center

工作生活

40较低

仅现场办公，未提及弹性工作或远程，字节通常工作强度较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

75中等

AI领域高速增长，但对社会价值影响中性，技术导向。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

训练高性能计算工程师-Seed

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

训练高性能计算工程师-Seed

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

GPU性能优化工程师

腾讯云应用性能优化工程师

腾讯云汽车行业-AI交付方案工程师（FDE方向）

高级投放 Agent 研发工程师（北京/深圳）

软件开发工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

GPU性能优化工程师

腾讯云应用性能优化工程师

腾讯云汽车行业-AI交付方案工程师（FDE方向）

高级投放 Agent 研发工程师（北京/深圳）

软件开发工程师

字节跳动的其他在招职位

字节跳动的其他在招职位