字节跳动的端侧多模态推理引擎高性能优化工程师-AML（上海/杭州/广州/深圳）薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

端侧多模态推理引擎高性能优化工程师-AML（上海/杭州/广州/深圳）的工作地点在哪里？

该职位工作地点位于上海市、杭州市、广州市、深圳市。工作形式为仅现场办公。

字节跳动的端侧多模态推理引擎高性能优化工程师-AML（上海/杭州/广州/深圳）有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

端侧多模态推理引擎高性能优化工程师-AML（上海/杭州/广州/深圳）

立即应聘

端侧多模态推理引擎高性能优化工程师-AML（上海/杭州/广州/深圳）

发布于大约 2 个月前

普通员工/个人贡献者

上海市 / 杭州市

中级经验

全职员工

仅现场办公

本科

软件工程

异构计算

模型量化

端侧推理

ARM NEON

CUDA

GPU优化

LLM

OpenCL

TensorRT

AI 估算 · 30k–60k

涉及前沿AI优化技术，技能稀缺，字节大厂薪资有竞争力，上海一线城市

职位详情

关于这个职位

加入字节跳动AML团队，负责端侧AI推理引擎的高性能优化，将LLM、多模态等大模型落地到抖音、剪映等亿级产品

你将深耕GPU/NPU异构计算、模型量化与稀疏化，打造业界领先的端侧推理方案，直接支撑公司AI业务增长

最低要求

本科及以上学历，计算机/电子/信息/通信/自动化/软件等相关专业，有AI工程优化经验优先

精通C/C++，精通算法与数据结构，熟悉Python

熟悉主流LLM/VLM/AIGC算法模型原理，了解混合专家（MoE）架构、低比特量化（如INT8/INT4/INT2）、SparseAttention等模型优化手段，有相关优化经验者优先

具备CUDA/OpenCL/Metal中的至少1种GPU优化经验，熟悉TensorRT/Triton/CUTLASS，熟悉高通/MTK等NPU架构及部署方案，有丰富的ARM NEON汇编优化，有以上技术的AI工程优化部署经验者优先

熟练掌握GPU（NVIDIA/Adreno/Mali/Apple）、CPU（ARM/x86）中的1个或多个平台的高性能计算优化技术，深入理解计算机体系结构，熟悉移动端/PC端/车端中一个或多个平台的并行计算优化、访存优化等

熟悉常用深度学习推理计算库，例如Llama.cpp、MNN、TNN、CoreML等，熟悉计算密集型算子如FlashAttention、Conv2d、GEMM、GEMV实现和加速优先

工作职责

负责开发和优化字节跳动公司级的端侧AI推理框架，通过CPU/GPU/DSP/NPU的并行计算优化、架构设计、稀疏优化、异构调度等多种高性能优化技术打造业界领先的高性能异构AI推理引擎

负责将LLM、多模态、AIGC等大模型算法在端侧做AI推理技术优化，落地到抖音、剪映、火山引擎等产品，支撑字节跳动AI业务的发展

负责AI模型和推理框架工具链开发及技术生态的建设

AI 洞察

优缺点分析

优点

字节跳动平台资源丰富，产品基数大，成果能快速产生规模效应
团队技术氛围浓厚，有机会与顶尖AI系统工程师共事
薪酬福利有竞争力，且位于上海/杭州等核心城市
端侧资源受限，对性能、功耗、稳定性要求极高，调试困难
适合热爱底层性能优化、追求技术极致、对AI系统有强烈兴趣的工程师，能适应快节奏和大规模场景

缺点 / 挑战

深度参与业界前沿的端侧大模型落地，技术挑战大，成长快
技术迭代快，需持续学习新模型和新硬件架构，压力较大
可能面临较大的项目交付压力，工作节奏偏快

角色解读

技术深耕：从端侧推理引擎扩展到云原生AI推理，成为系统优化专家
业务影响：直接支持抖音、剪映等亿万用户产品的AI功能，积累高价值业务认知
行业领袖：在端侧AI领域建立技术影响力，可向AI架构师或技术负责人发展
设计并优化字节跳动端侧AI推理引擎，在CPU/GPU/NPU上实现高性能并行计算
将LLM、多模态等大模型压缩并部署到手机、PC等设备，保障实时性与功耗
开发推理框架工具链，支持模型转换、量化、调试，提升AI落地的效率
跟踪前沿技术（如MoE、低比特量化），在端侧落地创新方案
精通C/C++与Python，有扎实的算法与数据结构基础
熟悉至少一种GPU编程平台（CUDA/OpenCL/Metal）及推理库（TensorRT）
理解LLM/VLM/AIGC模型结构及常见优化手段（量化、稀疏化、FlashAttention等）
具备ARM NEON汇编或NPU（高通/MTK）部署经验者优先

申请策略

除了技术能力，在面试中展示对端侧AI场景的洞察，比如功耗、延迟、模型压缩的trade-off
关注字节AML团队的技术博客或开源项目，提前了解他们正在解决的问题
突出C/C++项目经验，尤其是涉及并行计算、内存优化、体系结构调优的成果
展示GPU/NPU编程实战案例（如CUDA算子优化、ARM NEON加速），附上性能提升数据
强调对大模型推理的理解，包括量化、稀疏化、KV-cache等，最好有端侧部署经历
提及熟悉MNN/TNN/CoreML等推理框架，并说明你如何改进过某算子或系统
复习计算机体系结构（缓存、流水线、SIMD），掌握性能分析工具（如perf、nsight）
动手实现一个简单的LLM推理引擎，重点优化自注意力或前馈网络

面试指南

对于优化类问题：先明确目标平台和约束（算力、带宽、功耗），再分步骤分析计算模式、访存模式、并行度，然后给出具体优化手段（如向量化、循环展开、内存对齐），最后对比优化前后的指标
对于策略类问题：说明你对多种方案的理解，分析trade-off（如精度 vs 速度，延迟 vs 吞吐），并举例说明在不同场景下如何取舍
请详细说明你是如何优化一个卷积层或全连接层在ARM CPU上达到极致性能的？
对于LLM在端侧部署，你会采取哪些量化策略？为什么？
手写CUDA kernel实现FlashAttention的前向计算，并分析性能瓶颈
如何比较不同NPU架构（如高通Adreno vs MTK）的优劣？在选型时考虑哪些因素？
你过去项目中遇到过最难的性能问题是什么？如何定位和解决的？
复习经典高性能计算案例（如GEMM优化、Winograd卷积），并手写实现

职位点评

综合评分

字节AML端侧推理岗位，前沿技术栈，薪资优厚，但工作强度大，WLB一般。

更适合这类人

适合追求技术成长、愿意挑战高性能计算难题、对薪资和平台有较高期望，且能接受一定工作强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值70

薪资福利

80较高

字节跳动提供行业顶尖的薪酬包，但JD中未明确列出具体福利，且工作强度可能偏高，薪资与稳定性回报较好。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

90较高

职位涉及最前沿的端侧AI推理技术，技术挑战大，团队氛围好，且直接支持亿级产品，成长空间极大。

技术前沿前沿/新兴技术

技术栈LLM、多模态、AIGC、MoE、低比特量化、FlashAttention、CUDA、ARM NEON

业务类型profit_center

工作生活

40较低

字节跳动整体节奏较快，虽然JD未提及加班，但高性能优化工作通常需要投入大量时间，且地点为现场办公，灵活性低。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

端侧AI使能大量智能应用，提升用户体验，具有较好的社会价值，但主要商业驱动，使命感偏中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

端侧多模态推理引擎高性能优化工程师-AML（上海/杭州/广州/深圳）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Industrial Engineering ES

专家工程师（MPT）

高级软件开发工程师-配送引擎

资深研发工程师（商品&商家）

高级golang研发工程师

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Industrial Engineering ES

专家工程师（MPT）

高级软件开发工程师-配送引擎

资深研发工程师（商品&商家）

高级golang研发工程师

端侧多模态推理引擎高性能优化工程师-AML（上海/杭州/广州/深圳）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Industrial Engineering ES

专家工程师（MPT）

高级软件开发工程师-配送引擎

资深研发工程师（商品&商家）

高级golang研发工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Industrial Engineering ES

专家工程师（MPT）

高级软件开发工程师-配送引擎

资深研发工程师（商品&商家）

高级golang研发工程师

字节跳动的其他在招职位

字节跳动的其他在招职位