Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
广告大模型训练/推理优化研发工程师-Data
立即应聘

广告大模型训练/推理优化研发工程师-Data

发布于 大约 10 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
学历未注明
PyTorch
CUDA
DeepSpeed
SGLang
vLLM
FSDP

AI 估算 · 30k–60k

高级大模型优化工程师,技能稀缺,市场薪酬高,估算月薪30k-60k,15薪。

职位详情

关于这个职位

加入字节跳动广告团队,负责大模型训练与推理引擎的深度优化,包括编译、算子、分布式并行等,推动前沿技术落地

你将参与自研高性能算子库和异构适配,解决长序列训练推理的性能挑战,是AI基础设施建设的关键角色

最低要求

至少精通一门编程语言(如C、C++、Python),具备优秀的编码习惯并注重代码质量

扎实的计算机科学基础,深入理解数据结构与算法、操作系统、计算机体系结构、高性能编程等核心知识
了解PyTorch等深度学习框架,有FSDP,DeepSpeed等分布式训练经验
熟悉vLLM、SGLang等推理框架
具备高性能编程经验,熟悉Triton、CUDA、AscendC、BangC、DCU等编程

工作职责

深度学习引擎优化,参与训练和推理引擎的深度优化,包括编译优化、图融合技术、并行计算策略、低精度计算等

高性能算子与框架研发,负责自研高性能算子库建设,进行异构硬件适配,利用SIMD、CUDA等技术实现算子的并行加速
长序列的大规模分布式训练(DDP、FSDP、TP、SP、PP)和推理支持(RPC框架、vLLM、SGLang、TRT)
前沿技术调研与落地,探索下一代硬件架构、异构计算方案,将前沿技术转化为生产力

AI 洞察

优缺点分析

优点

  • 字节跳动广告业务场景复杂、数据规模巨大,优化效果直接带来商业价值
  • 团队技术氛围浓厚,有机会与业界顶尖工程师合作,参与开源项目
  • 技术难度高,需要同时掌握编译、算子、分布式等多领域知识,学习曲线陡峭
  • 技术迭代快,需要持续跟进前沿论文和硬件更新,保持学习状态

缺点 / 挑战

  • 处于AI大模型浪潮最前沿,技术栈新且挑战大,可快速积累核心竞争力
  • 业务压力大,广告系统对延迟和吞吐要求极高,可能存在高强度工作
  • 适合对AI基础设施有浓厚兴趣、技术功底扎实、愿意挑战高难度优化问题的工程师,能承受一定工作压力

角色解读

  • 深耕AI基础设施方向,成为训练/推理优化专家,主导核心引擎架构
  • 可向AI框架研发、芯片适配或系统架构师方向发展,甚至参与硬件设计
  • 在字节跳动广告业务中,技术成果直接影响数十亿级业务,成长空间大
  • 深入优化深度学习训练和推理引擎,包括编译器、图融合、并行策略和低精度计算,提升模型训练和推理效率
  • 研发高性能算子库,进行异构硬件适配,使用CUDA、Triton等技术加速关键算子
  • 支持长序列的大规模分布式训练(DDP/FSDP/TP等)和推理(vLLM/SGLang),构建高效稳定的分布式系统
  • 调研和落地下一代硬件架构与异构计算方案,将前沿技术转化为实际生产力
  • 精通C/C++/Python, 具备优秀的编码习惯和代码质量意识
  • 扎实的计算机体系结构、操作系统、数据结构与算法基础,理解高性能编程
  • 熟悉PyTorch及分布式训练框架(FSDP/DeepSpeed),掌握vLLM、SGLang等推理框架
  • 具备CUDA/Triton等高性能编程经验,了解AscendC/BangC等异构编程

申请策略

  • 字节跳动内部技术栈丰富,面试中会考察代码能力和系统设计,建议刷题和准备分布式系统设计题
  • 了解字节广告业务的基本流程,体现对业务场景的理解有助于展示匹配度
  • 突出训练/推理引擎优化经验,如编译器优化、算子开发、分布式并行等具体项目
  • 展示高性能编程能力,包括CUDA/Triton代码片段或性能提升数据
  • 强调对PyTorch、FSDP、vLLM等框架的深入理解和实际应用案例
  • 如果有开源贡献或相关论文,务必提及
  • 深入学习CUDA编程和GPU架构,动手实现一些经典算子优化
  • 熟悉vLLM、SGLang等推理框架的源码,理解其调度和显存管理机制

面试指南

  • 针对项目类问题:使用STAR法则(情境-任务-行动-结果),量化优化效果
  • 针对原理类问题:先给出核心概念,再对比不同方案优劣,最后结合实际场景
  • 针对代码题:先解释思路和复杂度,再动手编码,注意边界条件和异常处理
  • 请介绍一个你参与过的深度学习训练优化项目,具体做了哪些优化?提升了多少性能?
  • 如何设计一个高效的Attention算子?考虑GPU的共享内存和计算模式
  • FSDP和DeepSpeed的ZeRO系列有什么区别?在什么场景选择哪个?
  • 如何优化大模型推理的显存占用?介绍一下vLLM的PagedAttention原理
  • 写一个简单的CUDA核函数实现向量加法,并解释如何优化内存访问

匹配度报告

71
综合匹配度

AI大模型训练推理优化岗,技术前沿、薪资高、成长快,但工作强度大、灵活性低。

适合人群
适合追求技术成长、愿意接受高挑战、希望在高薪AI领域深耕的工程师。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展95
工作生活40
使命价值70

薪资福利匹配

80较高

字节跳动薪资在业内具有竞争力,且广告业务盈利能力强,薪酬待遇较好,但未在JD中明确具体范围和福利。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

95较高

该职位聚焦大模型训练推理优化,技术前沿且挑战大,能极大提升个人技术深度和广度,成长空间巨大。

技术前沿前沿/新兴技术
技术栈深度学习引擎优化、编译优化、图融合、低精度计算、CUDA、Triton、FSDP、DeepSpeed、vLLM、SGLang、分布式训练、异构计算
业务类型profit_center

工作生活匹配

40较低

字节跳动工作节奏较快,虽未明确说明加班,但互联网大厂研发岗位通常强度较高,且要求现场办公,灵活性有限。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

70中等

属于AI大模型赛道,推动技术前沿,但广告业务的社会影响力中性,个人使命感一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 直播高级产品经理(激励增长方向)-抖音直播

    字节跳动 · 北京市
    AI 估算 · 35k-55k
  • 资深架构师(机审方向)-国际化内容安全平台

    字节跳动 · 上海市
    AI 估算 · 50k-70k
  • 豆包AI大模型数据分析-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 商业产品经理(线索闭环化方向)-抖音生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • AI应用开发工程师-Cross Platform

    字节跳动 · 上海市
    AI 估算 · 30k-50k

字节跳动 的其他在招职位

  • 直播高级产品经理(激励增长方向)-抖音直播

    字节跳动 · 北京市
    AI 估算 · 35k-55k
  • 资深架构师(机审方向)-国际化内容安全平台

    字节跳动 · 上海市
    AI 估算 · 50k-70k
  • 豆包AI大模型数据分析-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 商业产品经理(线索闭环化方向)-抖音生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • AI应用开发工程师-Cross Platform

    字节跳动 · 上海市
    AI 估算 · 30k-50k