Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
SRE AI高级工程师-基础架构
立即应聘

SRE AI高级工程师-基础架构

发布于 大约 9 小时前

普通员工/个人贡献者

杭州市
高级经验
全职员工
仅现场办公
本科
SRE
PyTorch
GO
TensorFlow
Ai Infrastructure
Gpu/Xpu
A100
H100

AI 估算 · 30k–60k

字节跳动高级SRE工程师薪资通常较高,结合杭州互联网水平,月薪3-6万较为合理,且有年终奖加持。

职位详情

关于这个职位

该职位负责大规模高性能GPU/XPU集群的运维与优化,支撑字节跳动的大模型训练、在线推理等核心业务

你将深入AI基础设施,解决超大规模场景下的稳定性挑战,并构建自动化工具提升资源效率
适合有丰富SRE经验且对AI基础设施感兴趣的技术专家

最低要求

本科及以上学历,计算机相关专业或具备同等实践经验,拥有5年以上SRE相关工作经验

熟悉GPU/XPU资源管理和调度,具备高性能计算集群的管理经验
具备深厚的计算机系统基础知识,了解操作系统、存储和网络IO等相关原理
具备以下一项或多项软件开发经验:Go/Python/Java/C++等,能够编写高效、稳定的系统工具和自动化脚本
有丰富的生产环境故障排查和性能调优经验,能够快速定位和解决问题
熟悉AI大模型训练框架(如TensorFlow、PyTorch等),了解大规模分布式训练的实现细节和优化方法
具备优秀的沟通和协作能力,能够与业务方、开发团队紧密合作,推动项目顺利进行
具有高度的责任感和主动性,能够在快节奏下保持高效工作

工作职责

负责海量高性能GPU/XPU卡的资源交付与一致性保障,涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理

学习并深入了解GPU业务方的使用姿势和训练框架,掌握前沿AI大模型技术,解决超大规模场景下的稳定性挑战,涉及NVIDIA H100、A100、昇腾、以及自研XPU等高性能卡型的使用
构建自动化工程,确保生产环境的稳定性和资源在线率,及时发现并隔离故障GPU资源,提高资源流转效率
通过优秀的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展的需求并提高系统稳定性,包括架构规划、评审、设计、部署和上线等环节

优先资格

具备计算集群管理经验,尤其是在大数据和AI大模型训练场景下的经验

熟悉NVIDIA H100、A100等高性能计算卡的使用和优化
具备系统化思维和工程化研发能力,能够设计和实现复杂系统的自动化解决方案
英语口语流利,能够用英语进行流畅的沟通和表达,完成全球协作任务
具有产品和工程思维,具备良好的项目管理能力、数据结构和系统设计能力者优先

AI 洞察

优缺点分析

优点

  • 接触前沿AI大模型技术,积累超大规模集群管理经验,技术含金量高
  • 字节跳动作为互联网巨头,平台资源丰富,职业发展空间大
  • 薪资待遇优厚,福利完善,年终奖与项目奖金可观
  • 技术栈更新快,需要持续学习GPU、分布式训练等前沿知识
  • 对系统设计和自动化能力要求高,需要较强的工程化思维
  • 适合有丰富SRE经验、对AI基础设施充满热情、抗压能力强且追求技术深度的工程师

缺点 / 挑战

  • 工作强度较大,需应对大规模集群的突发故障和紧急需求,压力较高

角色解读

  • 深耕AI基础设施领域,成为GPU集群管理或SRE领域的专家
  • 向架构师方向发展,负责大规模分布式系统的整体设计与优化
  • 转向AI平台或机器学习工程方向,结合业务需求推动技术创新
  • 管理万卡级GPU集群,保障大模型训练和推理任务的资源交付与稳定性
  • 学习前沿AI大模型技术,解决超大规模分布式训练中的故障和性能瓶颈
  • 构建自动化工具和系统,提高GPU资源流转效率和故障隔离能力
  • 参与集群的架构设计、部署和全生命周期管理,推动基础设施可持续发展
  • 精通SRE方法论,拥有丰富的生产环境故障排查和性能调优经验
  • 熟悉GPU/XPU资源管理和调度,了解NVIDIA H100、A100等高性能计算卡
  • 掌握至少一种编程语言(Go/Python/Java/C++),能编写高效的自动化脚本
  • 了解AI大模型训练框架(如TensorFlow、PyTorch)及分布式训练原理

申请策略

  • 字节跳动注重工程能力和主动性,面试时多展示自己如何主动发现并解决问题
  • 了解字节跳动的业务背景(如抖音、大模型),结合自身经验阐述如何为业务赋能
  • 突出SRE经验中的大规模集群管理案例,特别是GPU集群或高性能计算相关
  • 强调故障排查和性能调优的实战记录,用具体数据体现成果(如资源利用率提升、故障恢复时间缩短等)
  • 展示编程能力,列举用Go/Python等开发自动化工具的项目
  • 提及对AI训练框架的了解,如TensorFlow/PyTorch分布式训练经验
  • 深入学习Kubernetes在GPU资源调度方面的实践,了解Volcano、kubeflow等工具
  • 补充对NVIDIA H100、A100等最新GPU架构的硬件知识和监控手段

面试指南

  • 对于故障处理问题,使用STAR原则(情境-任务-行动-结果)结构化回答,突出你的分析逻辑和工程化解决方案
  • 对于设计类问题,先明确需求场景,然后从架构、组件、容错、自动化等角度给出方案,并说明权衡点
  • 对于团队合作问题,强调沟通、文档化、SLA制定等实践,体现协作意识
  • 请描述一次你处理过的最大规模集群故障,以及你是如何排查和解决的?
  • 在大规模GPU集群中,如何提高资源利用率和避免碎片化?
  • 如何设计一个自动化的故障GPU隔离和恢复系统?
  • 你对大模型分布式训练的架构了解多少?谈谈常见的训练框架和通信模式
  • 在字节跳动,你如何看待SRE与业务开发团队的合作?

匹配度报告

71
综合匹配度

字节跳动SRE AI高级工程师,前沿技术栈、高成长性、薪资优厚,但工作强度大、WLB一般。

适合人群
最适合追求技术成长、愿意接受挑战、对高薪有一定要求的求职者,但需要做好高强度工作的准备。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值70

薪资福利匹配

85较高

薪资在互联网行业处于高位,字节跳动福利完善,但JD未明确薪资范围,且工作强度可能影响稳定性感知。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

职位涉及前沿AI基础设施技术,接触万卡集群和自研XPU,成长空间极大,JD明确提到‘掌握前沿AI大模型技术’。

技术前沿前沿/新兴技术
技术栈GPU/XPU、H100、A100、TensorFlow、PyTorch、大模型
业务类型profit_center

工作生活匹配

40较低

JD中提到‘快节奏下保持高效工作’,暗示工作强度较大,且未提及弹性办公或远程,通常需要现场办公。

工作模式仅现场办公
办公地点市区核心地段
加班情况JD含高强度暗示词

使命价值匹配

70中等

AI基础设施是当前高速增长赛道,对推动技术进步有较大贡献,但字节跳动作为商业公司,社会使命直接体现不明显。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 服务器整机结构工程师-Data

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 内容营销经理(飞书AI/Agent方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 游戏动作设计组长/专家

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 后端研发工程师-客服平台(成都)

    字节跳动 · 成都市
    AI 估算 · 20k-35k
  • 内容分发策略产品-红果短剧

    字节跳动 · 北京市
    AI 估算 · 20k-35k

字节跳动 的其他在招职位

  • 服务器整机结构工程师-Data

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 内容营销经理(飞书AI/Agent方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 游戏动作设计组长/专家

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 后端研发工程师-客服平台(成都)

    字节跳动 · 成都市
    AI 估算 · 20k-35k
  • 内容分发策略产品-红果短剧

    字节跳动 · 北京市
    AI 估算 · 20k-35k