Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
推理性能优化专家-ArkClaw
立即应聘

推理性能优化专家-ArkClaw

发布于 大约 1 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
LLM
多模态
CUDA
RDMA
ROCm
MLIR
混合精度量化
Pytorch Profiler
Sparse Attention
Int4/Int8/Fp8

AI 估算 · 40k–80k

大型互联网公司专家岗,技术难度高,市场稀缺,薪资竞争力强。

职位详情

关于这个职位

该职位负责LLM与多模态模型的推理性能优化,涵盖模型量化、通信优化、算子优化及全链路协同

你将主导工业级分布式推理框架的架构设计与核心模块开发,突破AI推理的性能瓶颈,支撑大规模模型的高效部署
适合在AI性能优化领域有深厚积累的专家

最低要求

具备5年以上AI领域性能优化实战经验,主导或核心参与过工业级分布式推理框架的架构设计与核心模块开发,拥有可验证的量化成果

深度掌握C++/Python/Go任一语言的底层机制与高性能编程实践,深入理解TensorFlow/PyTorch等AI框架的内核架构、算子执行流程与分布式通信逻辑,扎实具备神经网络优化、数值计算、并行计算等核心数学基础
至少深耕模型层(混合精度量化、稀疏化、注意力机制优化等,具备端到端推理优化落地经验)、通信层(RDMA/TCP协议栈优化、分布式通信拓扑设计与流量调度)、计算层(AI核心算子开发、TVM/Triton等编译框架应用与硬件指令集适配)任一核心方向,具备体系化实战能力
深入了解主流AI加速硬件(GPU、国产AI芯片)的架构特性与指令集优化逻辑,熟练运用PyTorch Profiler、Nsight、芯片厂商专属Profiling工具及系统级诊断工具,具备AI全链路性能瓶颈定位与调优实战能力

工作职责

模型优化:主导LLM与多模态模型推理优化,落地INT4/INT8/FP8混合精度量化、稀疏化、Sparse Attention等稀疏注意力机制优化技术,精准平衡推理性能、模型精度与资源开销

构建标准化模型性能基准体系与全流程自动化调优和测试管线,支撑模型规模化高效部署
通信优化:聚焦AI框架跨节点/集群通信性能攻坚,深度优化RDMA/TCP协议栈传输机制、低延迟序列化方案与通信拓扑设计
适配国产高速网卡、智能交换机等硬件,通过流量调度、通信分组策略优化,突破分布式场景下的通信瓶颈,保障大规模集群通信稳定性与效率
计算优化:深耕Transformer核心算子、卷积、矩阵乘加(GEMM)等AI核心算子优化,基于Triton/MLIR编译框架实现算子融合、向量化执行与编译优化
适配GPU CUDA/ROCm及国产AI芯片(昇腾/寒武纪)专用指令集,最大化硬件算力利用率与算子计算效率
全链路协同优化:迭代框架层核心特性,落地投机采样(Speculative Decoding)算法优化,优化专家路由策略与负载均衡机制,设计计算-通信精细化调度与重叠(Overlap)等方案,提升MOE架构模型推理吞吐量,识别模型部署全链路关键瓶颈,实现集群级端到端推理效率升级

AI 洞察

优缺点分析

优点

  • 身处AI大模型最热门赛道,技术积累极具市场价值
  • 字节跳动平台资源丰富,可接触大规模分布式系统真实场景
  • 薪酬与福利优厚,职业发展空间广阔
  • 技术深度要求极高,需同时掌握模型、通信、计算等多领域知识
  • 工作强度较大,可能涉及紧急线上问题排查与优化
  • 技术迭代迅速,需要持续学习前沿论文与工具
  • 适合在AI性能优化领域有5年以上经验、热爱技术攻坚、能适应快节奏的资深工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 在该岗位深耕模型/通信/计算任一方向,成为领域权威
  • 向技术专家或架构师路线发展,主导更大规模AI基础设施
  • 可转向AI平台或AI系统架构管理岗位
  • 主导大语言模型和多模态模型的推理性能优化,应用混合精度量化、稀疏化等前沿技术
  • 深入优化AI框架的跨节点通信,提升RDMA/TCP协议栈效率并适配国产硬件
  • 开发高性能AI算子,利用Triton/MLIR编译框架实现算子融合与向量化
  • 协同优化全链路,通过投机采样、负载均衡等策略提升MOE模型推理吞吐量
  • 精通C++/Python/Go,具备底层系统与高性能编程能力
  • 深入理解PyTorch/TensorFlow框架内核及分布式通信
  • 扎实的神经网络、数值计算、并行计算基础
  • 掌握GPU/国产AI芯片架构特性及Profiling工具使用

申请策略

  • 了解字节跳动AI基础设施的技术栈与业务方向,在面试中展现匹配度
  • 准备一个完整的端到端推理优化案例,展示系统性思维
  • 突出主导或参与的工业级推理优化项目,量化性能提升指标
  • 展示对混合精度量化、通信优化、算子开发等核心方向的具体实践
  • 强调对GPU或国产AI芯片的底层优化经验
  • 补充Triton/MLIR等编译框架的实战经验
  • 系统学习Speculative Decoding、MOE等最新优化技术

面试指南

  • 结构化回答:先概述问题背景,再提出技术方案,最后说明效果与权衡
  • 结合项目经验:用STAR法则(情境、任务、行动、结果)具体阐述
  • 展示深度:不仅讲做法,要解释底层原理和替代方案
  • 如何设计一个LLM推理服务的性能基准测试?
  • INT8量化对模型精度影响如何评估?你有哪些缓解策略?
  • RDMA通信优化中如何平衡延迟与吞吐?
  • 描述一次你发现并解决分布式训练/推理通信瓶颈的经历
  • MOE模型推理中负载均衡和专家路由如何优化?

匹配度报告

68
综合匹配度

高薪前沿技术岗,技术成长极快,但工作强度大且WLB较差。

适合人群
最适合追求技术深度与前沿发展、愿意接受高强度工作节奏的资深AI工程师。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展90
工作生活35
使命价值75

薪资福利匹配

70中等

职位未直接披露薪资,但字节跳动薪酬体系在行业中具有竞争力,且专家岗位通常享有高薪和股票期权,补偿性满足程度较好。

薪资信号未披露(AI估算:40K-80K/月)

成长发展匹配

90较高

该职位聚焦LLM推理前沿技术,涉及混合精度量化、稀疏化、通信优化等高价值技能,技术深度和成长空间极大,发展性动机高度满足。

技术前沿前沿/新兴技术
技术栈LLM、多模态、混合精度量化、稀疏化、Sparse Attention、RDMA、Triton、MLIR、CUDA、ROCm、Speculative Decoding、MOE
业务类型profit_center

工作生活匹配

35较低

职位未提及远程或弹性工作,字节跳动通常要求现场办公且高强度,工作与生活平衡可能较差。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

75中等

AI大模型领域处于高速增长赛道,工作具有技术推动价值,但JD未强调社会使命,意义感中等偏上。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 抖音策略产品经理-内容理解

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 云服务器镜像架构师-计算

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家补贴效率运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 前端开发工程师-中国交易与广告

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 视觉设计Leader-TikTok(上海)

    字节跳动 · 上海市
    AI 估算 · 30k-50k

相似职位推荐

  • Software Engineer, Gameplay - Unpublished R&D Product (Contract)

    锐完游戏 · 广州市
    AI 估算 · 20k-35k
  • Senior Technical Artist - Unpublished R&D Product

    锐完游戏 · 广州市
    AI 估算 · 25k-45k
  • Staff Software Engineer, Gameplay - Unpublished R&D Product

    锐完游戏 · 广州市
    AI 估算 · 30k-50k
  • 技术架构师

    中国平安 · 深圳市
    AI 估算 · 30k-60k

字节跳动 的其他在招职位

  • 抖音策略产品经理-内容理解

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 云服务器镜像架构师-计算

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家补贴效率运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 前端开发工程师-中国交易与广告

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 视觉设计Leader-TikTok(上海)

    字节跳动 · 上海市
    AI 估算 · 30k-50k

相似职位推荐

  • Software Engineer, Gameplay - Unpublished R&D Product (Contract)

    锐完游戏 · 广州市
    AI 估算 · 20k-35k
  • Senior Technical Artist - Unpublished R&D Product

    锐完游戏 · 广州市
    AI 估算 · 25k-45k
  • Staff Software Engineer, Gameplay - Unpublished R&D Product

    锐完游戏 · 广州市
    AI 估算 · 30k-50k
  • 技术架构师

    中国平安 · 深圳市
    AI 估算 · 30k-60k