Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
训练高性能计算工程师-Seed
立即应聘

训练高性能计算工程师-Seed

发布于 大约 10 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
PyTorch
高性能计算
CUDA
RDMA
NCCL
TVM
大模型训练

AI 估算 · 35k–65k

大厂前沿AI岗位,技能稀缺,薪资有竞争力,参考市场行情。

职位详情

关于这个职位

该职位是字节跳动Seed团队的高性能计算工程师,负责大规模AI模型训练系统中关键算子的设计与实现

你需要精通C++/Python和CUDA编程,针对不同AI加速器进行极致性能优化,并参与算法与工程联合设计
适合对高性能计算和大模型训练有热情的技术人员

最低要求

掌握C/C++,精通Python,熟练掌握PyTorch

熟悉CUDA编程,熟悉NVIDIA或其他加速器硬件架构细节和优化点
熟悉Triton/TVM/Torch.Compile等编译工具
熟悉Nccl或Nvshmem通信算子的底层实现,熟悉主流的RDMA/NVLINK的通信拓扑
熟悉主流文本大模型/多模态大模型/Diffusion类模型架构以及训练方式

工作职责

负责大规模训练系统中的关键高性能算子的设计与实现

针对不同AI加速器的硬件架构,对训练算子性能做极致的性能优化
针对大模型训练系统中不同分布式并行的特点,实现针对计算和通信的极致优化
算法和工程的联合设计,追求系统性能和算法效果的最优平衡点

优先资格

精通CUTLASS/Cute dsl开发

对Flash Attention的实现有深入的理解和开发调优经验
有Triton/Tilelang等编译框架底层优化经验
有通信/计算Overlap算子的开发经验

AI 洞察

优缺点分析

优点

  • 接触最前沿的AI大模型训练技术,参与行业领先项目
  • 字节跳动Seed团队技术实力强,能快速积累专业经验
  • 高薪与良好的职业发展平台,期权和福利丰厚
  • 技术难度高,需要持续学习最新硬件和算法
  • 工作强度可能较大,面临紧迫的项目里程碑
  • 对底层系统理解要求深入,调试和优化过程复杂
  • 适合对高性能计算和AI系统有浓厚兴趣,愿意攻克技术难题的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 向资深高性能计算架构师发展,主导大规模训练系统的设计与优化
  • 向技术专家方向深耕,成为AI芯片或编译器领域的权威
  • 也可转向AI系统研究员,探索下一代训练基础设施
  • 负责设计和实现大规模训练系统中的高性能计算算子,如矩阵乘法、注意力机制等
  • 针对不同AI加速器(如NVIDIA GPU)的硬件架构,进行极致性能优化,包括内存访问、指令调度等
  • 优化分布式训练中的计算与通信重叠,提升整体训练效率
  • 与算法团队合作,联合设计系统与模型,平衡性能与效果
  • 精通C/C++和Python,熟练使用PyTorch框架
  • 深入掌握CUDA编程,熟悉NVIDIA GPU架构细节和优化技巧
  • 熟悉编译工具如Triton、TVM或Torch.Compile,能进行算子自动调优
  • 理解分布式通信原语(NCCL/NVSHMEM),熟悉RDMA和NVLink拓扑

申请策略

  • 了解字节跳动Seed团队的研究方向,在面试中展现兴趣和匹配度
  • 准备一个端到端的训练优化案例,展示问题分析和解决能力
  • 突出CUDA相关项目经验,尤其是大规模训练系统的优化案例
  • 强调分布式训练、通信优化或算子调优的成果
  • 展示对主流大模型架构(如Transformer、Diffusion)的理解
  • 学习Triton或TVM等编译工具,进行实践练习
  • 深入阅读Flash Attention、NCCL源码等经典实现
  • 熟悉至少一种AI加速器(如NVIDIA、AMD)的硬件文档

面试指南

  • 使用STAR方法:情境、任务、行动、结果,突出技术细节和量化提升
  • 从系统角度思考:先分析瓶颈(计算/通信/内存),再提出针对性优化方案
  • 请描述一次你优化CUDA kernel的经历,如何分析瓶颈并提升性能?
  • Flash Attention的实现原理是什么?你会如何进一步优化?
  • 在多机多卡训练中,如何处理通信与计算的overlap?
  • 谈谈你对Triton或TVM的理解,它们在什么场景下更有效?
  • 如何选择分布式并行策略(数据并行、模型并行、流水线并行等)?
  • 复习CUDA优化技巧:memory coalescing, shared memory, warp shuffle等

匹配度报告

74
综合匹配度

高薪大厂、前沿AI训练系统、技术难度大、成长空间大,但工作强度不确定。

适合人群
最适合追求技术突破、高薪资和职业成长的求职者,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活40
使命价值75

薪资福利匹配

85较高

高薪岗位,字节跳动福利优厚,但JD未明确列出具体福利。

薪资信号偏高 (35K-65K/月)

成长发展匹配

95较高

岗位属于AI训练基础设施核心,技术前沿,成长空间极大。

技术前沿前沿/新兴技术
技术栈CUDA、Triton、TVM、NCCL、PyTorch、大模型训练、RDMA
业务类型profit_center

工作生活匹配

40较低

仅现场办公,未提及弹性工作或远程,字节通常工作强度较高。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

75中等

AI领域高速增长,但对社会价值影响中性,技术导向。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 消息中间件产品开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 番茄系内容运营-音乐

    字节跳动 · 北京市
    AI 估算 · 15k-30k
  • 基础框架产品-红果短剧

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • XR系统应用开发工程师-移动OS

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • UX设计师-飞书文档

    字节跳动 · 深圳市
    AI 估算 · 15k-30k

字节跳动 的其他在招职位

  • 消息中间件产品开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 番茄系内容运营-音乐

    字节跳动 · 北京市
    AI 估算 · 15k-30k
  • 基础框架产品-红果短剧

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • XR系统应用开发工程师-移动OS

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • UX设计师-飞书文档

    字节跳动 · 深圳市
    AI 估算 · 15k-30k