Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
多模态大模型推理算子优化工程师-Data AML(北京/上海/杭州/深圳)
立即应聘

多模态大模型推理算子优化工程师-Data AML(北京/上海/杭州/深圳)

发布于 大约 2 小时前

普通员工/个人贡献者

北京市 / 上海市
中级经验
全职员工
仅现场办公
学历未注明
CUDA
HIP
AIGC
SGLang
vLLM
TensorRT-LLM
MoE
SP
Flashattention
Zero

AI 估算 · 20k–40k

字节跳动AI中高级工程师,一线城市及技术稀缺性,薪资竞争力强

职位详情

关于这个职位

该职位负责多模态大模型(如Seedance/Seedream)的推理算子在异构卡上的加速与适配,核心是优化计算密集型算子(如FlashAttention、Matmul)并应用低比特量化、稀疏等技术,需要深入理解计算机体系结构和CUDA等编程模型

加入字节跳动Data AML团队,你将与顶尖AI工程团队合作,推动AIGC模型在实际业务中的高效部署

最低要求

有AI工程系统优化经验,深入理解计算机体系结构、熟悉CUDA/AscendC/BangC/HIP中的一种或者多种算子,熟悉计算密集型算子如FlashAttention、Conv2d、Matmul、GroupedMatmul、MOE实现和加速

具备良好的沟通能力和团队合作精神

工作职责

负责Seedance/Seedream基础模型及衍生模型异构卡推理加速工作

负责视频/图像生成/多模态等方向模型的异构卡适配

优先资格

具备低比特量化、稀疏等优化技术经验者优先

熟悉Triton、TileLang、Cute DSL等语言并具备相关技术优化经验优先
了解主流AIGC、多模态算法模型原理,有AIGC模型训练适配&加速、通算融合/掩盖经验优先
熟悉TensorRT-LLM、SGLang、vLLM引擎,或熟悉ZeRO、TP、SP等并行技术原理优先

AI 洞察

优缺点分析

优点

  • 接触前沿多模态大模型技术,积累异构计算与AI系统优化经验,技术壁垒高
  • 薪资待遇优厚,竞争力强,团队技术氛围浓厚
  • 对技术深度要求极高,需要持续学习更新硬件和软件栈
  • 技术迭代快,需跟进学术和工业界最新进展
  • 适合对AI系统和底层优化有强烈兴趣、享受性能压榨、愿意深入硬件细节的工程师

缺点 / 挑战

  • 字节跳动平台资源丰富,业务场景多,技术挑战大,成长迅速
  • 工作强度较大,可能面临紧急上线和性能压测的压力

角色解读

  • 从算子优化工程师成长为AI系统架构师,负责完整推理管线的设计与优化
  • 深耕AI编译器方向(如Triton、MLIR),成为AI编译领域专家
  • 横向扩展至多模态模型训练加速,成为端到端AI工程全栈人才
  • 负责多模态大模型推理算子在异构卡(如NVIDIA、昇腾、寒武纪)上的加速与优化,提升模型推理效率
  • 深入分析计算密集算子(如FlashAttention、Matmul)的性能瓶颈,通过手写CUDA/AscendC等内核实现极致优化
  • 应用低比特量化、稀疏等压缩技术,结合Triton等DSL进行模型部署,确保业务场景下的低延迟推理
  • 精通CUDA/AscendC/BangC/HIP等GPU编程,熟悉FlashAttention、Matmul等算子的实现与优化
  • 深入理解计算机体系结构(内存层次、并行计算),具备AI工程系统优化经验
  • 熟悉TensorRT-LLM、vLLM等推理引擎,了解ZeRO、TP等并行策略

申请策略

  • 在面试中展示对具体算子的性能分析案例,例如如何分块、循环展开等
  • 关注字节跳动AML团队的技术分享(如掘金、知乎),了解其技术栈和方向
  • 突出AI工程系统优化项目经验,具体描述使用CUDA等语言优化算子的性能提升指标
  • 列出熟悉的GPUKernel实现,如FlashAttention、Matmul等,并附上GitHub链接或技术博客
  • 强调在AIGC模型推理加速或训练适配方面的实际成果
  • 若未接触过AscendC或BangC,可提前学习其编程模型和工具链
  • 补充Triton、TileLang等DSL的实践,以及低比特量化工具(如TensorRT量化)的使用
  • 阅读业界推理引擎(vLLM、SGLang)源码,加深对系统架构的理解

面试指南

  • 采用STAR法则:情境-任务-行动-结果,突出量化指标(如延迟减少X%,吞吐提升Y%)
  • 技术类问题先阐述原理,再结合实践经验,最后总结适用场景和局限
  • 遇到困难时,展示问题定位-假设验证-迭代优化的系统思维
  • 请详细介绍一个你优化过的CUDA算子,包括性能瓶颈分析和优化手段
  • 解释FlashAttention相比标准Attention的加速原理和内存节省机制
  • 如何对LLM模型进行低比特量化?有哪些挑战?
  • 你在异构卡适配中遇到过什么困难?如何解决?
  • 请描述TensorRT-LLM和vLLM在推理调度上的主要区别

匹配度报告

71
综合匹配度

字节跳动前沿AI系统优化岗,技术栈新、薪资高,但WLB一般。

适合人群
最适合追求技术深度和职业发展的求职者,对工作强度和生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值70

薪资福利匹配

85较高

字节跳动薪资在行业内竞争力强,通常包括高额年终奖和股票期权,但JD未明确披露具体福利。

薪资信号未披露(AI估算:20K-40K/月)

成长发展匹配

90较高

该职位涉及前沿技术栈(AIGC、异构计算、低比特量化),能接触最新硬件和软件生态,成长空间大,但JD未明确提及晋升或培训。

技术前沿前沿/新兴技术
技术栈CUDA、AscendC、FlashAttention、MOE、低比特量化、TensorRT-LLM、vLLM
业务类型profit_center

工作生活匹配

40较低

JD未说明办公模式,但字节跳动普遍要求现场办公,工作强度较大,WLB一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

AIGC和多模态技术是当前高速增长赛道,具有较强社会影响力,但JD未强调使命词。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 增长算法工程师-抖音直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 用户产品经理(同城Tab方向)-TikTok生活服务

    字节跳动 · 上海市
    AI 估算 · 15k-25k
  • 推荐算法专家-抖音推荐技术

    字节跳动 · 北京市
    AI 估算 · 35k-55k
  • 服务器装备测试/Diag 工程师

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 服务器硬件研发维护专家-Data

    字节跳动 · 深圳市
    AI 估算 · 30k-50k

相似职位推荐

  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】推荐大模型训练引擎研发工程师

    快手 · 北京市
    AI 估算 · 30k-60k
  • 【快Star】多模态推理平台工程师

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】增长激励算法工程师

    快手 · 北京市
    AI 估算 · 35k-60k
  • 【快Star】混合云AI推理工程师

    快手 · 北京市
    AI 估算 · 30k-50k

字节跳动 的其他在招职位

  • 增长算法工程师-抖音直播

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 用户产品经理(同城Tab方向)-TikTok生活服务

    字节跳动 · 上海市
    AI 估算 · 15k-25k
  • 推荐算法专家-抖音推荐技术

    字节跳动 · 北京市
    AI 估算 · 35k-55k
  • 服务器装备测试/Diag 工程师

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 服务器硬件研发维护专家-Data

    字节跳动 · 深圳市
    AI 估算 · 30k-50k

相似职位推荐

  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】推荐大模型训练引擎研发工程师

    快手 · 北京市
    AI 估算 · 30k-60k
  • 【快Star】多模态推理平台工程师

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】增长激励算法工程师

    快手 · 北京市
    AI 估算 · 35k-60k
  • 【快Star】混合云AI推理工程师

    快手 · 北京市
    AI 估算 · 30k-50k