字节跳动的多模态大模型推理算子优化工程师-Data AML（北京/上海/杭州/深圳）薪资是多少？

该职位薪资范围为 20k–40k（人民币/月）。

多模态大模型推理算子优化工程师-Data AML（北京/上海/杭州/深圳）的工作地点在哪里？

该职位工作地点位于北京市、上海市、杭州市、深圳市。工作形式为仅现场办公。

字节跳动的多模态大模型推理算子优化工程师-Data AML（北京/上海/杭州/深圳）有什么任职要求？

该职位要求学历未注明学历及中级经验工作经验。

字节跳动

多模态大模型推理算子优化工程师-Data AML（北京/上海/杭州/深圳）

立即应聘

多模态大模型推理算子优化工程师-Data AML（北京/上海/杭州/深圳）

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 上海市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

Flashattention

Zero

低比特量化

AIGC

Ascendc

Bangc

Conv2D

CUDA

AI 估算 · 20k–40k

字节跳动AI中高级工程师，一线城市及技术稀缺性，薪资竞争力强

职位详情

关于这个职位

该职位负责多模态大模型（如Seedance/Seedream）的推理算子在异构卡上的加速与适配，核心是优化计算密集型算子（如FlashAttention、Matmul）并应用低比特量化、稀疏等技术，需要深入理解计算机体系结构和CUDA等编程模型

加入字节跳动Data AML团队，你将与顶尖AI工程团队合作，推动AIGC模型在实际业务中的高效部署

最低要求

有AI工程系统优化经验，深入理解计算机体系结构、熟悉CUDA/AscendC/BangC/HIP中的一种或者多种算子，熟悉计算密集型算子如FlashAttention、Conv2d、Matmul、GroupedMatmul、MOE实现和加速

具备良好的沟通能力和团队合作精神

工作职责

负责Seedance/Seedream基础模型及衍生模型异构卡推理加速工作

负责视频/图像生成/多模态等方向模型的异构卡适配

优先资格

具备低比特量化、稀疏等优化技术经验者优先

熟悉Triton、TileLang、Cute DSL等语言并具备相关技术优化经验优先

了解主流AIGC、多模态算法模型原理，有AIGC模型训练适配&加速、通算融合/掩盖经验优先

熟悉TensorRT-LLM、SGLang、vLLM引擎，或熟悉ZeRO、TP、SP等并行技术原理优先

AI 洞察

优缺点分析

优点

接触前沿多模态大模型技术，积累异构计算与AI系统优化经验，技术壁垒高
薪资待遇优厚，竞争力强，团队技术氛围浓厚
对技术深度要求极高，需要持续学习更新硬件和软件栈
技术迭代快，需跟进学术和工业界最新进展
适合对AI系统和底层优化有强烈兴趣、享受性能压榨、愿意深入硬件细节的工程师

缺点 / 挑战

字节跳动平台资源丰富，业务场景多，技术挑战大，成长迅速
工作强度较大，可能面临紧急上线和性能压测的压力

角色解读

从算子优化工程师成长为AI系统架构师，负责完整推理管线的设计与优化
深耕AI编译器方向（如Triton、MLIR），成为AI编译领域专家
横向扩展至多模态模型训练加速，成为端到端AI工程全栈人才
负责多模态大模型推理算子在异构卡（如NVIDIA、昇腾、寒武纪）上的加速与优化，提升模型推理效率
深入分析计算密集算子（如FlashAttention、Matmul）的性能瓶颈，通过手写CUDA/AscendC等内核实现极致优化
应用低比特量化、稀疏等压缩技术，结合Triton等DSL进行模型部署，确保业务场景下的低延迟推理
精通CUDA/AscendC/BangC/HIP等GPU编程，熟悉FlashAttention、Matmul等算子的实现与优化
深入理解计算机体系结构（内存层次、并行计算），具备AI工程系统优化经验
熟悉TensorRT-LLM、vLLM等推理引擎，了解ZeRO、TP等并行策略

申请策略

在面试中展示对具体算子的性能分析案例，例如如何分块、循环展开等
关注字节跳动AML团队的技术分享（如掘金、知乎），了解其技术栈和方向
突出AI工程系统优化项目经验，具体描述使用CUDA等语言优化算子的性能提升指标
列出熟悉的GPUKernel实现，如FlashAttention、Matmul等，并附上GitHub链接或技术博客
强调在AIGC模型推理加速或训练适配方面的实际成果
若未接触过AscendC或BangC，可提前学习其编程模型和工具链
补充Triton、TileLang等DSL的实践，以及低比特量化工具（如TensorRT量化）的使用
阅读业界推理引擎（vLLM、SGLang）源码，加深对系统架构的理解

面试指南

采用STAR法则：情境-任务-行动-结果，突出量化指标（如延迟减少X%，吞吐提升Y%）
技术类问题先阐述原理，再结合实践经验，最后总结适用场景和局限
遇到困难时，展示问题定位-假设验证-迭代优化的系统思维
请详细介绍一个你优化过的CUDA算子，包括性能瓶颈分析和优化手段
解释FlashAttention相比标准Attention的加速原理和内存节省机制
如何对LLM模型进行低比特量化？有哪些挑战？
你在异构卡适配中遇到过什么困难？如何解决？
请描述TensorRT-LLM和vLLM在推理调度上的主要区别

职位点评

综合评分

字节跳动前沿AI系统优化岗，技术栈新、薪资高，但WLB一般。

更适合这类人

最适合追求技术深度和职业发展的求职者，对工作强度和生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

字节跳动薪资在行业内竞争力强，通常包括高额年终奖和股票期权，但JD未明确披露具体福利。

薪资信号未披露（AI估算：20K-40K/月）

成长发展

90较高

该职位涉及前沿技术栈（AIGC、异构计算、低比特量化），能接触最新硬件和软件生态，成长空间大，但JD未明确提及晋升或培训。

技术前沿前沿/新兴技术

技术栈CUDA、AscendC、FlashAttention、MOE、低比特量化、TensorRT-LLM、vLLM

业务类型profit_center

工作生活

40较低

JD未说明办公模式，但字节跳动普遍要求现场办公，工作强度较大，WLB一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

AIGC和多模态技术是当前高速增长赛道，具有较强社会影响力，但JD未强调使命词。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

多模态大模型推理算子优化工程师-Data AML（北京/上海/杭州/深圳）

立即应聘

多模态大模型推理算子优化工程师-Data AML（北京/上海/杭州/深圳）

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 上海市

中级经验

全职员工

仅现场办公

学历未注明

软件工程

Flashattention

Zero

低比特量化

AIGC

Ascendc

Bangc

Conv2D

CUDA

AI 估算 · 20k–40k

字节跳动AI中高级工程师，一线城市及技术稀缺性，薪资竞争力强

职位详情

关于这个职位

加入字节跳动Data AML团队，你将与顶尖AI工程团队合作，推动AIGC模型在实际业务中的高效部署

最低要求

具备良好的沟通能力和团队合作精神

工作职责

负责Seedance/Seedream基础模型及衍生模型异构卡推理加速工作

负责视频/图像生成/多模态等方向模型的异构卡适配

优先资格

具备低比特量化、稀疏等优化技术经验者优先

熟悉Triton、TileLang、Cute DSL等语言并具备相关技术优化经验优先

了解主流AIGC、多模态算法模型原理，有AIGC模型训练适配&加速、通算融合/掩盖经验优先

熟悉TensorRT-LLM、SGLang、vLLM引擎，或熟悉ZeRO、TP、SP等并行技术原理优先

AI 洞察

优缺点分析

优点

接触前沿多模态大模型技术，积累异构计算与AI系统优化经验，技术壁垒高
薪资待遇优厚，竞争力强，团队技术氛围浓厚
对技术深度要求极高，需要持续学习更新硬件和软件栈
技术迭代快，需跟进学术和工业界最新进展
适合对AI系统和底层优化有强烈兴趣、享受性能压榨、愿意深入硬件细节的工程师

缺点 / 挑战

字节跳动平台资源丰富，业务场景多，技术挑战大，成长迅速
工作强度较大，可能面临紧急上线和性能压测的压力

角色解读

从算子优化工程师成长为AI系统架构师，负责完整推理管线的设计与优化
深耕AI编译器方向（如Triton、MLIR），成为AI编译领域专家
横向扩展至多模态模型训练加速，成为端到端AI工程全栈人才
负责多模态大模型推理算子在异构卡（如NVIDIA、昇腾、寒武纪）上的加速与优化，提升模型推理效率
深入分析计算密集算子（如FlashAttention、Matmul）的性能瓶颈，通过手写CUDA/AscendC等内核实现极致优化
应用低比特量化、稀疏等压缩技术，结合Triton等DSL进行模型部署，确保业务场景下的低延迟推理
精通CUDA/AscendC/BangC/HIP等GPU编程，熟悉FlashAttention、Matmul等算子的实现与优化
深入理解计算机体系结构（内存层次、并行计算），具备AI工程系统优化经验
熟悉TensorRT-LLM、vLLM等推理引擎，了解ZeRO、TP等并行策略

申请策略

在面试中展示对具体算子的性能分析案例，例如如何分块、循环展开等
关注字节跳动AML团队的技术分享（如掘金、知乎），了解其技术栈和方向
突出AI工程系统优化项目经验，具体描述使用CUDA等语言优化算子的性能提升指标
列出熟悉的GPUKernel实现，如FlashAttention、Matmul等，并附上GitHub链接或技术博客
强调在AIGC模型推理加速或训练适配方面的实际成果
若未接触过AscendC或BangC，可提前学习其编程模型和工具链
补充Triton、TileLang等DSL的实践，以及低比特量化工具（如TensorRT量化）的使用
阅读业界推理引擎（vLLM、SGLang）源码，加深对系统架构的理解

面试指南

采用STAR法则：情境-任务-行动-结果，突出量化指标（如延迟减少X%，吞吐提升Y%）
技术类问题先阐述原理，再结合实践经验，最后总结适用场景和局限
遇到困难时，展示问题定位-假设验证-迭代优化的系统思维
请详细介绍一个你优化过的CUDA算子，包括性能瓶颈分析和优化手段
解释FlashAttention相比标准Attention的加速原理和内存节省机制
如何对LLM模型进行低比特量化？有哪些挑战？
你在异构卡适配中遇到过什么困难？如何解决？
请描述TensorRT-LLM和vLLM在推理调度上的主要区别

职位点评

综合评分

字节跳动前沿AI系统优化岗，技术栈新、薪资高，但WLB一般。

更适合这类人

最适合追求技术深度和职业发展的求职者，对工作强度和生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值70

薪资福利

85较高

字节跳动薪资在行业内竞争力强，通常包括高额年终奖和股票期权，但JD未明确披露具体福利。

薪资信号未披露（AI估算：20K-40K/月）

成长发展

90较高

该职位涉及前沿技术栈（AIGC、异构计算、低比特量化），能接触最新硬件和软件生态，成长空间大，但JD未明确提及晋升或培训。

技术前沿前沿/新兴技术

技术栈CUDA、AscendC、FlashAttention、MOE、低比特量化、TensorRT-LLM、vLLM

业务类型profit_center

工作生活

40较低

JD未说明办公模式，但字节跳动普遍要求现场办公，工作强度较大，WLB一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

AIGC和多模态技术是当前高速增长赛道，具有较强社会影响力，但JD未强调使命词。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

多模态大模型推理算子优化工程师-Data AML（北京/上海/杭州/深圳）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

多模态大模型推理算子优化工程师-Data AML（北京/上海/杭州/深圳）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

高级软件研发工程师

营销增长工程师/架构师

高级专家工程师-实线TL（运力平台方向）

高级算法工程师

高级/资深 agent研发工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

高级软件研发工程师

营销增长工程师/架构师

高级专家工程师-实线TL（运力平台方向）

高级算法工程师

高级/资深 agent研发工程师

字节跳动的其他在招职位

字节跳动的其他在招职位