Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
多模态大模型推理框架优化工程师-Data AML(北京/上海/杭州/深圳)
立即应聘

多模态大模型推理框架优化工程师-Data AML(北京/上海/杭州/深圳)

发布于 大约 14 小时前

普通员工/个人贡献者

北京市 / 上海市
高级经验
全职员工
仅现场办公
本科
GPU
推理优化
Kv Cache
Roofline Model

AI 估算 · 35k–60k

字节跳动高级工程师薪资在35k-60k/月,结合AI大模型方向高需求,给予15薪。

职位详情

关于这个职位

负责多模态大模型(如Seedance、Seedream等)推理链路的端到端性能优化,提升GPU利用率、吞吐量和显存效率

涉及多卡通信优化、GPU架构适配及前沿推理加速技术预研
适合对GPU体系结构和系统性能优化有深入理解的技术专家

最低要求

计算机相关专业本科及以上学历,精通C++/Python中的至少一门,有扎实的系统编程与性能优化基础

熟悉GPU体系结构:理解SM调度、显存层次(HBM/L2/Shared Memory)、计算与访存瓶颈分析模型(如Roofline Model)
熟悉Transformer模型推理流程,理解KV Cache、Attention计算模式、Tensor Parallelism通信拓扑等核心概念
具备较强的性能分析能力:能熟练使用性能分析工具,系统性定位计算、访存、通信瓶颈
对推理加速有浓厚兴趣,善于从硬件原理和系统全局出发思考优化策略,有较强的分析和解决问题的能力

工作职责

推理性能优化:负责Seedance、Seedream、Seed3D等SOTA模型推理链路的端到端性能优化,围绕GPU利用率、推理吞吐(tokens/s)、延迟(TTFT/TPOT)、显存效率等核心指标,系统性地定位瓶颈并推动优化落地

多卡通信优化:设计与优化多卡推理场景下的通信策略(TP/PP/EP),降低集合通信开销,实现通信与计算的高效Overlap,提升多卡线性扩展效率
GPU架构理解与适配:深入理解GPU硬件架构特性,针对新硬件能力做推理策略适配与性能调优,充分释放硬件算力
多模型推理加速:支持多模态(VLM)/视频生成(DiT/VAE)/MoE等多种模型架构的推理加速,设计通用可扩展的优化方案
前沿技术预研:跟踪推理加速前沿方向,推动技术选型与生产落地

优先资格

有大模型推理优化实战经验、有多卡通信优化经验、熟悉多代GPU微架构差异、有跨硬件性能适配经验

有视频生成模型(DiT/VAE)或MoE模型的推理加速经验
熟悉Kubernetes/Docker,有GPU集群资源调度与推理服务部署经验

AI 洞察

优缺点分析

优点

  • 接触前沿多模态大模型(Seedance等)和最新GPU硬件,技术视野开阔
  • 字节跳动AML团队技术实力强,项目影响力大,成果直接服务亿级用户
  • 薪资和福利在行业内具有竞争力,且公司成长性好
  • 对GPU底层和系统性能有极高要求,需要持续学习新硬件和新模型架构
  • 工作强度可能较大,需要应对多模型快速迭代的优化需求
  • 竞争激烈,需要扎实的理论基础和丰富的实战经验
  • 适合热爱硬核系统优化、对GPU架构和推理加速有浓厚兴趣的资深工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 在AI Infra领域深耕,成为GPU计算和推理框架的专家,主导关键优化方向
  • 向架构师方向发展,设计大规模异构计算集群的推理系统
  • 横向拓展至训练优化、模型压缩或硬件适配等相邻领域
  • 负责多模态大模型推理链路的端到端性能优化,包括GPU利用率、吞吐量、延迟和显存效率等核心指标的提升
  • 设计和优化多卡推理通信策略(如TP/PP/EP),降低通信开销并实现计算与通信的overlap
  • 深入理解GPU硬件架构,针对新硬件特性进行推理策略适配和性能调优
  • 支持多种模型架构(VLM、视频生成、MoE)的推理加速,并跟踪前沿技术进行预研和落地
  • 精通C++或Python,具备扎实的系统编程和性能优化基础
  • 熟悉GPU体系结构(SM调度、显存层次、Roofline Model等),能够分析计算和访存瓶颈
  • 深入理解Transformer推理流程,包括KV Cache、Attention计算和Tensor Parallelism通信拓扑
  • 熟练使用性能分析工具(如NVIDIA Nsight、Profiler)定位性能瓶颈

申请策略

  • 强调自己从系统全局角度思考优化策略的能力,而非仅关注单点
  • 了解字节跳动在AI Infra方向的最新布局,表达对Seed项目等前沿工作的热情
  • 重点突出GPU性能优化项目经验,包括具体优化指标(吞吐、延迟)和改进效果
  • 详细描述多卡通信优化或推理框架设计经历,说明使用的技术栈和瓶颈分析思路
  • 展示对Transformer/KV Cache/Tensor Parallelism等核心概念的深入理解
  • 如有开源贡献或技术博客,附上链接以证明技术深度
  • 系统学习CUDA编程和GPU微架构(如Hopper、Ampere架构差异)
  • 动手实践推理框架(如vLLM、TensorRT-LLM)的性能调优

面试指南

  • 对于性能优化问题,采用“瓶颈定位→方案设计→实验验证→效果量化”的闭环思路
  • 对于架构设计问题,先说明核心原理,再对比不同方案的优劣,结合具体场景给出建议
  • 如何优化Transformer推理中的KV Cache内存占用?
  • 请解释Tensor Parallelism和Pipeline Parallelism的区别及适用场景
  • 给定一个GPU kernel,如何分析其是计算瓶颈还是访存瓶颈?
  • 描述一次你成功提升GPU推理吞吐量的具体案例和步骤
  • 在多卡推理中,如何降低all-reduce通信开销?
  • 复习GPU体系结构和CUDA编程基础知识,熟悉Roofline Model和性能分析工具

匹配度报告

75
综合匹配度

前沿AI推理优化岗,技术前沿薪资高,但工作强度大且WLB不确定。

适合人群
适合追求技术成长和薪资回报,能接受较高工作强度的资深工程师。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活50
使命价值70

薪资福利匹配

85较高

字节跳动提供业界领先的薪资和福利,但未明确提及具体福利项。

薪资信号未披露(AI估算:35K-60K/月)

成长发展匹配

95较高

职位处于AI大模型最前沿技术栈,设计推理优化涉及最新模型和硬件,成长空间极大。

技术前沿前沿/新兴技术
技术栈C++、Python、GPU、Transformer、KV Cache、Tensor Parallelism、Roofline Model、Kubernetes、Docker、推理优化
业务类型profit_center

工作生活匹配

50较低

字节跳动通常为现场办公,未提及弹性工时或WLB信息,工作强度可能较大。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI推理优化是热门赛道,技术影响力大,但未提及直接社会价值。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k