
字节跳动
端侧多模态推理引擎高性能优化工程师-AML(上海/杭州/广州/深圳)
端侧多模态推理引擎高性能优化工程师-AML(上海/杭州/广州/深圳)
发布于 大约 14 小时前普通员工/个人贡献者
上海市 / 杭州市
中级经验
全职员工
仅现场办公
本科
GPU优化
LLM
OpenCL
CUDA
模型量化
TensorRT
异构计算
ARM NEON
端侧推理
AI 估算 · 30k–60k
涉及前沿AI优化技术,技能稀缺,字节大厂薪资有竞争力,上海一线城市
职位详情
关于这个职位
加入字节跳动AML团队,负责端侧AI推理引擎的高性能优化,将LLM、多模态等大模型落地到抖音、剪映等亿级产品
你将深耕GPU/NPU异构计算、模型量化与稀疏化,打造业界领先的端侧推理方案,直接支撑公司AI业务增长
最低要求
本科及以上学历,计算机/电子/信息/通信/自动化/软件等相关专业,有AI工程优化经验优先
精通C/C++,精通算法与数据结构,熟悉Python
熟悉主流LLM/VLM/AIGC算法模型原理,了解混合专家(MoE)架构、低比特量化(如INT8/INT4/INT2)、SparseAttention等模型优化手段,有相关优化经验者优先
具备CUDA/OpenCL/Metal中的至少1种GPU优化经验,熟悉TensorRT/Triton/CUTLASS,熟悉高通/MTK等NPU架构及部署方案,有丰富的ARM NEON汇编优化,有以上技术的AI工程优化部署经验者优先
熟练掌握GPU(NVIDIA/Adreno/Mali/Apple)、CPU(ARM/x86)中的1个或多个平台的高性能计算优化技术,深入理解计算机体系结构,熟悉移动端/PC端/车端中一个或多个平台的并行计算优化、访存优化等
熟悉常用深度学习推理计算库,例如Llama.cpp、MNN、TNN、CoreML等,熟悉计算密集型算子如FlashAttention、Conv2d、GEMM、GEMV实现和加速优先
工作职责
负责开发和优化字节跳动公司级的端侧AI推理框架,通过CPU/GPU/DSP/NPU的并行计算优化、架构设计、稀疏优化、异构调度等多种高性能优化技术打造业界领先的高性能异构AI推理引擎
负责将LLM、多模态、AIGC等大模型算法在端侧做AI推理技术优化,落地到抖音、剪映、火山引擎等产品,支撑字节跳动AI业务的发展
负责AI模型和推理框架工具链开发及技术生态的建设
AI 洞察
优缺点分析
优点
- 字节跳动平台资源丰富,产品基数大,成果能快速产生规模效应
- 团队技术氛围浓厚,有机会与顶尖AI系统工程师共事
- 薪酬福利有竞争力,且位于上海/杭州等核心城市
- 端侧资源受限,对性能、功耗、稳定性要求极高,调试困难
- 适合热爱底层性能优化、追求技术极致、对AI系统有强烈兴趣的工程师,能适应快节奏和大规模场景
缺点 / 挑战
- 深度参与业界前沿的端侧大模型落地,技术挑战大,成长快
- 技术迭代快,需持续学习新模型和新硬件架构,压力较大
- 可能面临较大的项目交付压力,工作节奏偏快
角色解读
- 技术深耕:从端侧推理引擎扩展到云原生AI推理,成为系统优化专家
- 业务影响:直接支持抖音、剪映等亿万用户产品的AI功能,积累高价值业务认知
- 行业领袖:在端侧AI领域建立技术影响力,可向AI架构师或技术负责人发展
- 设计并优化字节跳动端侧AI推理引擎,在CPU/GPU/NPU上实现高性能并行计算
- 将LLM、多模态等大模型压缩并部署到手机、PC等设备,保障实时性与功耗
- 开发推理框架工具链,支持模型转换、量化、调试,提升AI落地的效率
- 跟踪前沿技术(如MoE、低比特量化),在端侧落地创新方案
- 精通C/C++与Python,有扎实的算法与数据结构基础
- 熟悉至少一种GPU编程平台(CUDA/OpenCL/Metal)及推理库(TensorRT)
- 理解LLM/VLM/AIGC模型结构及常见优化手段(量化、稀疏化、FlashAttention等)
- 具备ARM NEON汇编或NPU(高通/MTK)部署经验者优先
申请策略
- 除了技术能力,在面试中展示对端侧AI场景的洞察,比如功耗、延迟、模型压缩的trade-off
- 关注字节AML团队的技术博客或开源项目,提前了解他们正在解决的问题
- 突出C/C++项目经验,尤其是涉及并行计算、内存优化、体系结构调优的成果
- 展示GPU/NPU编程实战案例(如CUDA算子优化、ARM NEON加速),附上性能提升数据
- 强调对大模型推理的理解,包括量化、稀疏化、KV-cache等,最好有端侧部署经历
- 提及熟悉MNN/TNN/CoreML等推理框架,并说明你如何改进过某算子或系统
- 复习计算机体系结构(缓存、流水线、SIMD),掌握性能分析工具(如perf、nsight)
- 动手实现一个简单的LLM推理引擎,重点优化自注意力或前馈网络
面试指南
- 对于优化类问题:先明确目标平台和约束(算力、带宽、功耗),再分步骤分析计算模式、访存模式、并行度,然后给出具体优化手段(如向量化、循环展开、内存对齐),最后对比优化前后的指标
- 对于策略类问题:说明你对多种方案的理解,分析trade-off(如精度 vs 速度,延迟 vs 吞吐),并举例说明在不同场景下如何取舍
- 请详细说明你是如何优化一个卷积层或全连接层在ARM CPU上达到极致性能的?
- 对于LLM在端侧部署,你会采取哪些量化策略?为什么?
- 手写CUDA kernel实现FlashAttention的前向计算,并分析性能瓶颈
- 如何比较不同NPU架构(如高通Adreno vs MTK)的优劣?在选型时考虑哪些因素?
- 你过去项目中遇到过最难的性能问题是什么?如何定位和解决的?
- 复习经典高性能计算案例(如GEMM优化、Winograd卷积),并手写实现
匹配度报告
70
综合匹配度
字节AML端侧推理岗位,前沿技术栈,薪资优厚,但工作强度大,WLB一般。
适合人群
适合追求技术成长、愿意挑战高性能计算难题、对薪资和平台有较高期望,且能接受一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值70
薪资福利匹配
80较高
字节跳动提供行业顶尖的薪酬包,但JD中未明确列出具体福利,且工作强度可能偏高,薪资与稳定性回报较好。
薪资信号未披露(AI估算:30K-60K/月)
成长发展匹配
90较高
职位涉及最前沿的端侧AI推理技术,技术挑战大,团队氛围好,且直接支持亿级产品,成长空间极大。
技术前沿前沿/新兴技术
技术栈LLM、多模态、AIGC、MoE、低比特量化、FlashAttention、CUDA、ARM NEON
业务类型profit_center
工作生活匹配
40较低
字节跳动整体节奏较快,虽然JD未提及加班,但高性能优化工作通常需要投入大量时间,且地点为现场办公,灵活性低。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值匹配
70中等
端侧AI使能大量智能应用,提升用户体验,具有较好的社会价值,但主要商业驱动,使命感偏中性。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs