Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
AI基础设施架构师/高级AI基础设施研究员-基础设施
立即应聘

AI基础设施架构师/高级AI基础设施研究员-基础设施

发布于 大约 11 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
硕士
信息技术与基础设施
分布式系统
RDMA
GPU集群
NCCL
Megatron-LM
DeepSpeed
vLLM

AI 估算 · 50k–80k

字节跳动为上市巨头,AI基础设施岗位技术门槛高,市场稀缺,薪资对标顶级大厂,16薪常见。

职位详情

关于这个职位

作为AI基础设施架构师,你将负责设计超大规模AI工厂的端到端架构,包括万卡级GPU集群、高性能网络和存储系统,支撑百亿/千亿参数大模型的训练与推理

你将主导分布式调度、全栈性能优化和下一代存储管道的设计,与顶尖团队一起推动AI基础设施的技术突破

最低要求

硕士学位及以上,计算机科学、计算机工程、电子工程或相关专业

工作经验:5年以上高并发/分布式系统工程经验,其中至少3年聚焦于ML/AI基础设施领域,有GPU集群实践经验者优先
技术功底:深入理解现代GPU/加速器微架构、高速互联架构(NVLink/NVSwitch)及数据中心网络(RDMA/RoCE/InfiniBand)
精通至少一种主流分布式训练/推理框架的底层源码与优化机制
具备扎实的系统编程能力,精通C++、Go或Rust,并具备深厚的Python底层开发与调试功底
素养:具备出色的第一性原理(First-principles)思考能力,面对复杂的软硬件级联故障能迅速推导本质,具备优秀的技术前瞻性

工作职责

端到端AI Factory架构设计:负责超大规模、高可用AI Factory的端到端架构设计与演进

主导面向万卡/十万卡级GPU/加速器集群的计算、高性能网络(RDMA/RoCE/1.6T/CPO)及低延迟存储系统的协同设计,支撑百亿/千亿参数大模型(LLM/VLM)的高效Pre-training和超大规模分布式Inference工作负载
下一代分布式调度与资源管理:设计并实现面向服务(SOA/MicroServices)的下一代AI/ML分布式调度系统与集群联邦架构(基于Kubernetes、高性能调度插件或自定义编排框架)
利用智能资源流转、工作负载感知放置(Topology-aware placement)与故障自动恢复(Fault-tolerance)机制,极致提升集群算力利用率(MFU/HFU)并降低TCO
全栈性能极致优化与瓶颈分析:全链路剖析并优化AI/ML计算堆栈:涵盖机器学习编译器(XLA/TVM/Triton)、通信库(NCCL/RCCL)、算子优化、大模型训练/推理框架(Megatron-LM,DeepSpeed,vLLM等)
主导构建低开销(Low-overhead)的分布式Metrics监控、可观测性系统及微基准测试(Micro-Benchmarking)框架,精准定位并消除超大规模集群的系统级长尾瓶颈
下一代高性能存储与数据管道:针对大模型长周期训练的Checkpointing、多模态海量数据预处理、以及推理场景下的长文本/高并发需求,设计下一代高性能分布式存储、缓存系统及存算一体架构
主导构建高吞吐的分布式ETL与数据摄取管道

AI 洞察

优缺点分析

优点

  • 字节跳动提供顶级资源,项目影响面广,技术积累价值高
  • 薪资和福利具有强竞争力,16薪及期权机会
  • 与顶尖工程师合作,提升系统设计和优化能力
  • 工作强度大,涉及7x24小时系统稳定性保障,需应对复杂故障
  • 技术更新快,需要持续学习最新的硬件和软件栈
  • 跨团队协作多,沟通成本高,需协调多方推进架构落地
  • 适合有5年以上分布式系统经验,对AI基础设施有深厚技术热情,乐于解决复杂系统问题的技术专家

缺点 / 挑战

  • 参与前沿超大规模AI基础设施设计,技术挑战高,成长迅速

角色解读

  • 技术专家路径:成为AI基础设施领域的权威,主导下一代技术演进
  • 架构师路径:从团队架构师升级为跨部门技术负责人,影响公司整体基础设施战略
  • 管理路径:带团队,从技术负责人到部门总监,负责更大规模的团队和项目
  • 设计超大规模AI工厂的架构,包括计算、网络和存储的协同方案
  • 开发分布式调度系统和集群联邦架构,提升GPU集群利用率
  • 进行全栈性能优化,从编译器到通信库再到训练推理框架,消除系统瓶颈
  • 构建高性能存储和数据管道,支持大模型训练和推理的Checkpointing及数据预处理
  • 精通分布式系统设计和GPU集群架构,熟悉RDMA、Kubernetes等基础设施
  • 深入理解深度学习训练/推理框架(如Megatron-LM、DeepSpeed)的底层原理
  • 扎实的系统编程能力,精通C++、Go或Rust,以及Python调试技能
  • 具备第一性原理思维,能快速定位软硬件级联故障

申请策略

  • 面试前准备系统设计题,如设计万卡GPU集群的调度系统
  • 了解字节跳动AI基础设施的公开技术文章,展示对公司的研究
  • 突出GPU集群管理和优化经验,如训练效率提升的量化数据
  • 强调对分布式训练框架(如Megatron-LM、DeepSpeed)的源码级理解
  • 展示系统编程能力,尤其是C++/Go/Rust高性能项目
  • 列举参与过的超大规模系统架构设计案例
  • 补充对RDMA网络和NVLink/NVSwitch架构的深入理解
  • 熟悉Kubernetes自定义调度器和资源管理的实践

面试指南

  • 使用结构化方法:先明确需求和约束,再提出方案并权衡利弊
  • 结合具体案例:用真实项目经验说明问题、方案和结果
  • 展示深度理解:不仅要描述做法,还要解释为什么这样设计
  • 如何设计一个万卡GPU集群的分布式训练调度系统?
  • 解释一下当训练任务出现性能瓶颈时,你的排查和优化思路
  • 描述一次你优化通信库(如NCCL)或编译器(如XLA)的经验
  • 如何处理大规模集群中的故障容错和自动恢复?
  • 谈谈对AI Factory架构的理解,包括计算、网络和存储的权衡

职位点评

72
综合评分

大厂核心AI基础设施岗,技术前沿、薪资优厚,但工作强度大、WLB一般。

更适合这类人
适合以技术成长为核心追求,能接受高强度工作,追求前沿技术挑战的开发者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展95
工作生活40
使命价值70

薪资福利

85较高

字节跳动提供具有竞争力的薪资和福利,上市大厂稳定性高,但具体薪资未在JD中披露,综合来看补偿性动机满足度较高。

薪资信号未披露(AI估算:50K-80K/月)

成长发展

95较高

该职位涉及前沿AI基础设施技术,如万卡集群、RDMA、LLM优化,技术成长空间极大,且JD强调了架构设计和优化,发展性动机满足度非常高。

技术前沿前沿/新兴技术
技术栈GPU集群、RDMA、Kubernetes、Megatron-LM、DeepSpeed、vLLM
成长机会架构设计、演进、下一代
业务类型profit_center

工作生活

40较低

工作地点在北京现场办公,未提及远程或弹性工时,且AI基础设施运维可能涉及高强度工作,生活化动机满足度较低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

AI基础设施是当前高速增长赛道,直接支撑大模型发展,有较强技术影响力,但JD未强调社会价值,意义感动机中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • 高级解决方案专家_数据中心

    西门子 · 上海市
    AI 估算 · 30k-50k
  • Senior Systems Specialist - IT Infrastructure - FCS - Shanghai

    普华永道 · 上海市
    AI 估算 · 25k-40k
  • 智能终端运维工程师

    京东 · 北京市
    AI 估算 · 15k-25k
  • 技术方向-AI Infra

    京东 · 北京市
    AI 估算 · 15k-25k
  • Senior Cybersecurity Engineer

    伊顿中国 · 深圳市
    AI 估算 · 25k-40k

字节跳动 的其他在招职位

  • 多媒体处理高级开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 招聘专家-广告

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • 自动化开发专家-TikTok(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 35k-65k
  • AI业务研发工程师-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 25k-50k
  • 平台产品经理(游戏AI方向)-抖音

    字节跳动 · 深圳市
    AI 估算 · 25k-45k

相似职位推荐

  • 高级解决方案专家_数据中心

    西门子 · 上海市
    AI 估算 · 30k-50k
  • Senior Systems Specialist - IT Infrastructure - FCS - Shanghai

    普华永道 · 上海市
    AI 估算 · 25k-40k
  • 智能终端运维工程师

    京东 · 北京市
    AI 估算 · 15k-25k
  • 技术方向-AI Infra

    京东 · 北京市
    AI 估算 · 15k-25k
  • Senior Cybersecurity Engineer

    伊顿中国 · 深圳市
    AI 估算 · 25k-40k