Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
推理性能优化专家-计算
立即应聘

推理性能优化专家-计算

发布于 大约 18 小时前

普通员工/个人贡献者

北京市
专家级经验
全职员工
仅现场办公
学历未注明
PyTorch
TensorFlow
LLM
多模态
RDMA
MLIR
分布式推理
混合精度量化
稀疏化
Gpu Cuda

AI 估算 · 50k–80k

资深专家岗,稀缺技能,字节跳动大厂高薪,北京一线城市,市场竞争力强。

职位详情

关于这个职位

该职位专注于大语言模型和多模态模型的推理性能优化,涉及模型量化、稀疏化、通信优化、算子优化及全链路协同

你将主导核心优化方案的设计与落地,平衡精度、性能与资源,推动模型在集群上的高效部署
适合具有5年以上AI性能优化经验、深耕计算/通信/模型层某一方向的资深工程师

最低要求

具备5年以上AI领域性能优化实战经验,主导或核心参与过工业级分布式推理框架的架构设计与核心模块开发,拥有可验证的量化成果

深度掌握C++/Python/Go任一语言的底层机制与高性能编程实践,深入理解TensorFlow/PyTorch等AI框架的内核架构、算子执行流程与分布式通信逻辑,扎实具备神经网络优化、数值计算、并行计算等核心数学基础
至少深耕模型层(混合精度量化、稀疏化、注意力机制优化等,具备端到端推理优化落地经验)、通信层(RDMA/TCP协议栈优化、分布式通信拓扑设计与流量调度)、计算层(AI核心算子开发、TVM/Triton等编译框架应用与硬件指令集适配)任一核心方向,具备体系化实战能力
深入了解主流AI加速硬件(NVIDIA/AMD GPU、昇腾/寒武纪等国产AI芯片)的架构特性与指令集优化逻辑,熟练运用PyTorch Profiler、NVIDIA Nsight、芯片厂商专属Profiling工具及系统级诊断工具,具备AI全链路性能瓶颈定位与调优实战能力

工作职责

模型优化:主导LLM与多模态模型推理优化,落地INT4/INT8/FP8混合精度量化、稀疏化、Sparse Attention等稀疏注意力机制优化技术,精准平衡推理性能、模型精度与资源开销

构建标准化模型性能基准体系与全流程自动化调优和测试管线,支撑模型规模化高效部署
通信优化:聚焦AI框架跨节点/集群通信性能攻坚,深度优化RDMA/TCP协议栈传输机制、低延迟序列化方案与通信拓扑设计
适配国产高速网卡、智能交换机等硬件,通过流量调度、通信分组策略优化,突破分布式场景下的通信瓶颈,保障大规模集群通信稳定性与效率
计算优化:深耕Transformer核心算子、卷积、矩阵乘加(GEMM)等AI核心算子优化,基于Triton/MLIR编译框架实现算子融合、向量化执行与编译优化
适配GPU CUDA/ROCm及国产AI芯片(昇腾/寒武纪)专用指令集,最大化硬件算力利用率与算子计算效率
全链路协同优化:迭代框架层核心特性,落地投机采样(Speculative Decoding)算法优化,优化专家路由策略与负载均衡机制,设计计算-通信精细化调度与重叠(Overlap)等方案,提升MOE架构模型推理吞吐量,识别模型部署全链路关键瓶颈,实现集群级端到端推理效率跃迁

AI 洞察

优缺点分析

优点

  • 字节跳动平台资源丰富,有机会影响大规模线上服务
  • 技能壁垒高,市场稀缺,职业竞争力强
  • 技术难度极高,需要持续学习最新论文和硬件特性
  • 工作强度可能较大,涉及大规模集群调试和紧急性能优化
  • 跨团队协作复杂,需要与算法、工程、硬件等多方沟通
  • 适合对AI推理性能有极致追求、技术自驱力强、乐于解决复杂系统问题的资深工程师

缺点 / 挑战

  • 身处AI大模型前沿赛道,技术挑战大,个人价值提升快

角色解读

  • 技术深度上:成为推理优化领域顶级专家,主导关键技术决策
  • 横向扩展:覆盖模型、通信、计算全栈,成长为AI基础设施架构师
  • 管理方向:后续可带领团队,负责整体推理平台架构演进
  • 主导大模型推理性能优化,包括模型量化、稀疏化、核函数优化等,提升推理速度并降低资源消耗
  • 优化分布式通信,解决跨节点/集群通信瓶颈,适配国产硬件
  • 开发并优化Transformer等核心算子,利用Triton/MLIR等编译框架实现硬件适配与计算效率最大化
  • 负责全链路协同,结合投机采样、负载均衡等技术提升MOE架构的推理吞吐量
  • 精通C++/Python/Go,深入理解TensorFlow/PyTorch内核及分布式通信
  • 在模型优化(量化/稀疏化)、通信优化(RDMA/TCP)、或计算优化(算子开发/编译框架)至少一个方向有体系化能力
  • 熟悉主流AI芯片架构(GPU/昇腾/寒武纪),能使用Profiling工具进行性能瓶颈定位
  • 具备5年以上工业级推理优化经验,有可验证的量化成果

申请策略

  • 关注字节跳动技术博客和工程团队分享,理解其技术方向
  • 准备一个你主导的性能优化案例,从问题分析到方案落地到收益量化,完整讲述
  • 突出你在模型量化、稀疏化或算子优化方向的工业级项目成果,用数据说明性能提升(如延迟降低、吞吐提升)
  • 展示你对TensorFlow/PyTorch内核的深入理解,比如参与过框架级优化
  • 如果有RDMA通信优化、GPU底层优化或国产芯片适配经验,重点强调
  • 列出使用过的Profiling工具和解决过的典型性能瓶颈案例
  • 复习最新大模型推理优化技术,如FlashAttention、Speculative Decoding、MOE routing等
  • 动手实践Triton/MLIR编译框架,尝试编写简单算子

面试指南

  • STAR法则:Situation-Task-Action-Result,用具体数据佐证
  • 对比方案:说明为什么选择某种优化技术,与其他方案的优劣比较
  • 系统思维:从全链路角度分析瓶颈,展现整体架构视野
  • 请详细描述你做过的一个推理优化项目,包括量化方案、精度损失控制、性能收益
  • 如何优化分布式训练/推理中的通信瓶颈?请谈谈你对RDMA和TCP协议栈的理解
  • 对于Transformer中的Attention计算,有哪些优化手段?解释Sparse Attention的原理
  • 如何平衡模型量化后的精度和推理速度?具体介绍INT4/INT8/FP8混合精度方案
  • 介绍一下Triton与MLIR的异同,以及你在实际项目中如何使用它们

匹配度报告

72
综合匹配度

前沿技术驱动、高薪大厂机会,但工作强度大、WLB一般。

适合人群
适合极看重技术成长、愿意在高挑战环境中快速提升、对WLB要求不高的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活40
使命价值70

薪资福利匹配

85较高

字节跳动为已上市公司,薪酬体系成熟,该岗为稀缺技术专家,薪资竞争力强,但未明确提及福利细节。

薪资信号未披露(AI估算:50K-80K/月)

成长发展匹配

95较高

该岗位处于AI大模型最前沿,技术挑战极高,能极大提升个人在推理优化领域的深度和广度,成长空间巨大。

技术前沿前沿/新兴技术
技术栈LLM、多模态、混合精度量化、稀疏化、RDMA、Triton、MLIR、MOE、投机采样
业务类型profit_center

工作生活匹配

40较低

职位仅现场办公,位于北京,未提及弹性工作或WLB,互联网大厂高强度文化常见,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI大模型是高速增长赛道,技术影响力大,但社会价值偏间接,主要用于商业应用。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 后端开发工程师-TikTok搜索

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 网关运维SRE工程师

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 人事产品应用实施顾问-飞书

    字节跳动 · 广州市
    AI 估算 · 25k-35k
  • 模型训练-CQC

    字节跳动 · 成都市
    AI 估算 · 25k-40k
  • 用户治理平台产品经理-TikTok安全产品

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 客户端开发实习生-【回森】

    快手 · 北京市
    AI 估算 · 5k-8k
  • 客户端实习生(快影)-【主站】

    快手 · 北京市
    AI 估算 · 6k-10k
  • 服务端开发实习生(影像)-【主站】

    快手 · 北京市
    AI 估算 · 4k-8k
  • Java开发实习生(回森方向)-【主站】

    快手 · 北京市
    AI 估算 · 4k-6k
  • Senior Software Engineer - Tech Foundations

    锐完游戏 · 上海市
    AI 估算 · 25k-45k

字节跳动 的其他在招职位

  • 后端开发工程师-TikTok搜索

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 网关运维SRE工程师

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 人事产品应用实施顾问-飞书

    字节跳动 · 广州市
    AI 估算 · 25k-35k
  • 模型训练-CQC

    字节跳动 · 成都市
    AI 估算 · 25k-40k
  • 用户治理平台产品经理-TikTok安全产品

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 客户端开发实习生-【回森】

    快手 · 北京市
    AI 估算 · 5k-8k
  • 客户端实习生(快影)-【主站】

    快手 · 北京市
    AI 估算 · 6k-10k
  • 服务端开发实习生(影像)-【主站】

    快手 · 北京市
    AI 估算 · 4k-8k
  • Java开发实习生(回森方向)-【主站】

    快手 · 北京市
    AI 估算 · 4k-6k
  • Senior Software Engineer - Tech Foundations

    锐完游戏 · 上海市
    AI 估算 · 25k-45k