Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型训练优化工程师-Commercial AI
立即应聘

大模型训练优化工程师-Commercial AI

发布于 大约 11 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
软件工程
PyTorch
性能优化
TensorFlow
CUDA
分布式训练
DeepSpeed
大模型训练
FSDP
Megatron

AI 估算 · 35k–70k

大模型训练优化是当前热门方向,字节跳动薪资竞争力强,高级工程师月薪在35-70K,16薪

职位详情

关于这个职位

该职位负责超大规模机器学习系统的架构设计与优化,专注于大模型分布式训练的性能提升,涉及LLM/MLLM的CPT/SFT/RL等训练系统

你将与算法团队紧密合作,进行算法与系统的联合优化,并适配国产硬件
适合具备扎实系统编程能力和分布式训练经验的工程师

最低要求

优秀的代码能力、数据结构和基础算法功底,熟练掌握Linux环境下的C/C++,Python

熟悉至少一种机器学习框架(PyTorch/TensorFlow/PaddlePaddle/Mindspore等训练框架),以及对应框架相应技术生态
有分布式训练、模型并行、数据并行等训练经验,至少了解一种分布式框架(如FSDP/Megatron/DeepSpeed/veScale等)
掌握分布式系统原理,参与过分布式系统的设计、开发和维护
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动
较强的自驱学习能力,对端到端系统设计、编码规范和系统优化有高标准要求

工作职责

负责超大规模机器学习系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关

负责大模型分布式训练任务性能优化,涵盖LLM/MLLM模型的CPT/SFT/RL等训练系统的搭建和性能优化
与算法部门深度合作,进行算法与系统的联合优化
国产硬件的适配和性能优化

优先资格

熟悉LLM、MLLM、NLP、CV、语音相关的算法和技术,熟悉大模型训练、Diffusion模型训练

熟悉GRPO/PPO/DAPO等RL算法、veRL/OpenRLHF/AReal/ROLL/Slime等任一强化学习框架
熟悉高性能编程,例如CUDA、向量化、并行化
或具有AI编译器相关经验
熟悉国产异构硬件并有相关训练框架或高性能算子调优经验

AI 洞察

优缺点分析

优点

  • 置身AI大模型最前沿,接触超大规模训练系统,技术含金量高
  • 薪资待遇优厚,股票期权等福利完善
  • 团队技术氛围浓厚,与业内顶尖人才共事
  • 技术栈更新快,需持续学习保持竞争力
  • 适合有强烈技术好奇心、热爱系统底层优化、能承受高强度工作的资深工程师

缺点 / 挑战

  • 字节跳动平台资源丰富,数据量大,挑战与成长空间巨大
  • 工作强度较大,需快速迭代和解决复杂系统问题,压力不小
  • 对分布式系统底层理解要求高,入门门槛较高

角色解读

  • 技术纵深发展:成为大模型训练系统架构专家或分布式系统首席工程师
  • 横向拓展:向AI编译器、硬件适配或算法优化方向发展
  • 管理路线:担任技术团队负责人,带领系统优化团队
  • 负责超大模型训练系统的架构设计与开发,解决高并发、高可靠性挑战
  • 优化LLM/MLLM模型的分布式训练性能,包括CPT/SFT/RL等环节
  • 与算法团队协作,进行算法与系统的联合调优
  • 适配并优化国产硬件上的训练性能
  • 精通C/C++和Python,具备优秀的编码和数据结构能力
  • 熟悉至少一种深度学习框架(PyTorch/TensorFlow等)及其生态
  • 掌握分布式训练原理,有FSDP/Megatron/DeepSpeed等框架实战经验
  • 具备分布式系统设计开发经验,了解高性能编程(CUDA等)优先

申请策略

  • 应聘前了解字节AI基础设施团队的技术博客和开源项目,体现主动学习
  • 准备好过往项目中遇到的系统瓶颈及解决思路,面试中会深入考察
  • 突出分布式训练框架的实战经验,如Megatron、DeepSpeed等具体项目
  • 强调系统性能优化成果,如训练效率提升百分比、显存优化等量化数据
  • 展示对C++/Python以及PyTorch等框架的深入理解
  • 如有CUDA或AI编译器经验,务必重点提及
  • 系统学习分布式训练原理,了解FSDP、模型并行、流水线并行等
  • 熟悉字节常用技术栈(如veScale、LightSeq等)可加分

面试指南

  • 先阐述原理,再结合具体实践案例,最后总结效果
  • 遇到问题先分析根因(如计算、通信或内存),再提出优化策略,注意量化对比
  • 对于开放性问题,体现系统思维,从架构层面给出权衡
  • 请解释Megatron-LM的模型并行和流水线并行原理
  • 如何优化大模型训练中的通信瓶颈?谈谈你的方案
  • 遇到过训练任务OOM或显存不足的情况吗?如何解决?
  • 对比FSDP和DeepSpeed ZeRO,它们各自的优缺点是什么?
  • 请描述一次你参与过的分布式系统性能调优经历

职位点评

66
综合评分

大模型训练优化岗,技术前沿薪资高,但工作强度大、WLB差。

更适合这类人
适合追求技术成长和高薪资、能接受高强度工作的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展90
工作生活30
使命价值60

薪资福利

85较高

字节跳动薪资在业内处于顶尖水平,16薪及期权等福利较好,但未在JD中明确提及具体福利。

薪资信号未披露(AI估算:35K-70K/月)

成长发展

90较高

该岗位聚焦大模型训练前沿技术,技术栈新且挑战大,成长空间巨大,但JD未明确提及晋升路径。

技术前沿前沿/新兴技术
技术栈LLM、MLLM、分布式训练、FSDP、Megatron、DeepSpeed、CUDA
业务类型profit_center

工作生活

30较低

字节跳动以高强度工作文化著称,JD未提及WLB或弹性工作,默认仅现场办公,生活平衡较差。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

60中等

大模型是当前科技前沿,但该岗位偏系统优化,社会影响力中性,JD未体现使命感。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • Student Intern-SYNC

    西门子 · 上海市
    AI 估算 · 4k-6k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 15k-25k
  • Advanced Software Engineer-C++

    飞利浦 · 沈阳市
    AI 估算 · 25k-40k
  • 2027 Campus - Software Development Engineer - Industrial & IoT

    恩智浦半导体 · 北京市
    AI 估算 · 15k-25k
  • 大模型推理部署优化实习生-AI引擎

    米哈游 · 上海市
    AI 估算 · 4k-8k