Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
公有云机器学习系统工程师-调度方向
立即应聘

公有云机器学习系统工程师-调度方向

发布于 大约 9 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
分布式系统
GPU
PyTorch
GO
TensorFlow
RDMA
调度算法
Volcano

AI 估算 · 30k–60k

字节跳动一线大厂,调度方向属核心AI基础设施,对分布式系统能力要求高,市场竞争力强,薪资具吸引力。

职位详情

关于这个职位

该职位负责字节跳动火山方舟大模型平台及机器学习平台的资源调度系统设计与开发,涉及多机房、多集群环境下GPU/CPU等异构资源的编排调度,支撑大规模离线训练和在线推理场景

你将深入分布式系统、云原生技术栈,解决资源利用率和调度效率的难题,是AI基础设施的核心工程师

最低要求

熟练掌握Linux环境下的Go/Java/Python等1-2种语言

具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯
熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch 或其他自研框架)
熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata 等容器技术,有丰富的云原生机器学习系统实践和开发经验
掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护
有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动
有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档

工作职责

负责机器学习系统资源调度的设计和开发,支持火山方舟大模型平台和机器学习平台的产品业务

负责多机房、多集群环境下的,各种异构计算(GPU、CPU、其他异构硬件)、存储(各种云存储)、网络(VPC、RDMA)等资源的最优化编排调度,在严格的多租隔离环境下,支持各种离线训练、在线推理等负载场景的调度需求,并实现整体资源的合理化、最大化利用

优先资格

有大规模集群在离线资源调度相关工作的实践经验,对K8S/Volcano/Yarn/Mesos等一到多个开源项目的调度实现有源码级的理解,熟悉容器化、轻量级虚拟机等相关技术

熟悉常见调度算法,对多租户Quota治理、抢占、弹性、碎片、潮汐、混部、QoS等一到多个调度问题有深入理解和实践经验,具备较强的解决复杂问题的分析和建模能力,有GPU相关调度经验
有以下某一方向领域的经验:CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage

AI 洞察

优缺点分析

优点

  • 使用前沿技术栈:Kubernetes、GPU、RDMA等,紧跟云计算与AI基础设施最新趋势
  • 大厂平台,资源丰富,团队技术氛围浓厚,有机会与业界顶尖工程师合作
  • 调度问题复杂度高,需要在上百节点、多租户环境下平衡性能与隔离性,调试难度大
  • 工作强度可能较大,需要快速响应线上问题,承担Oncall责任
  • 对技术广度要求高,需要同时理解底层硬件(GPU、网络)上层应用(训练、推理)和调度算法
  • 适合对分布式系统、云原生技术有浓厚兴趣,喜欢解决复杂系统工程问题,并且能在高压环境下快速成长的技术型人才

缺点 / 挑战

  • 核心业务部门,负责火山方舟大模型平台调度,技术挑战大,成长空间广阔

角色解读

  • 深耕调度领域,成为集群资源管理与调度架构师,主导下一代调度系统设计
  • 横向扩展至AI基础设施全栈,涵盖训练平台、推理引擎、异构计算等方向
  • 在字节跳动内部可晋升为技术专家或团队负责人,带领团队攻克调度难题
  • 设计并实现大规模机器学习资源调度系统,管理GPU/CPU/存储等异构资源的编排与分配
  • 优化多租户隔离环境下的调度策略,支持离线训练和在线推理等混合负载的高效运行
  • 深入Kubernetes、Docker等云原生技术,解决资源碎片、潮汐调配、QoS保障等复杂调度问题
  • 扎实的编程能力:精通Go/Java/Python至少一门语言,熟悉算法与数据结构
  • 云原生技术栈:深入理解Kubernetes架构,熟悉Docker/Containerd等容器技术,有云原生系统开发经验
  • 分布式系统知识:掌握分布式原理,参与过大规模分布式系统的设计与维护
  • 机器学习框架基础:了解TensorFlow/PyTorch等主流框架,能配合调度需求调优

申请策略

  • 面试前了解火山方舟平台的技术架构和业务场景,在面试中能结合具体问题讨论调度优化思路
  • 准备好系统设计面试题,例如设计一个多租户集群调度系统,重点说明资源碎片、抢占、弹性等问题的解决策略
  • 突出分布式系统相关项目,特别是大规模集群调度、资源管理经验,用量化成果体现(如集群规模、资源利用率提升百分比)
  • 展示对Kubernetes生态的深入理解,如贡献过开源社区、定制过调度器、开发过Operator等
  • 强调编程能力和系统设计能力,最好附上以前设计过的系统架构图或技术博客
  • 若有不足,可系统学习Kubernetes调度源码(如kube-scheduler、Volcano),尝试阅读并提交PR
  • 补充GPU相关知识:CUDA编程、GPU调度策略(如MIG、时间片),以及RDMA网络原理

面试指南

  • 从场景分析入手:明确约束条件(多租户、异构资源、混合负载),然后提出方案,分点描述核心机制,最后评估优缺点
  • 结合开源生态:提及Kubernetes标准组件、Volcano、Katalyst等,说明如何借鉴和定制
  • 量化思维:在设计中提及指标(如资源利用率、调度延迟、抢占成功率),体现工程落地能力
  • 请描述Kubernetes调度器的默认调度流程,如何为GPU任务实现自定义调度策略?
  • 在多租户环境下,如何保证资源隔离的同时提高整体利用率?请设计一个Quota治理方案
  • 你如何理解Volcano调度框架?它与默认调度器相比有什么优势?
  • 请解释资源碎片产生的原因,并给出减少碎片的调度算法思路
  • 在离线混合部署场景下,如何在线任务不受到影响的前提下,充分利用空闲资源运行离线任务?

匹配度报告

71
综合匹配度

大厂核心AI基础设施岗位,前沿技术栈,成长空间巨大,但工作强度大、WLB一般。

适合人群
适合高度重视技术成长、渴望挑战前沿难题的工程师,若更看重工作生活平衡则需慎重考虑。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活40
使命价值80

薪资福利匹配

75中等

字节跳动为一线大厂,薪资福利有竞争力,但JD未明确具体范围,给出合理估计。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

职位涉及前沿云原生、AI基础设施技术,调度问题极具挑战,能极大提升系统设计能力和技术视野。

技术前沿前沿/新兴技术
技术栈Kubernetes、Docker、GPU、RDMA、TensorFlow、PyTorch、Volcano
业务类型profit_center

工作生活匹配

40较低

仅现场办公,未提及弹性工作或WLB,大厂核心岗位通常工作强度较大,且JD未明确说明加班情况。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

80较高

大模型平台是当前高速增长赛道,调度系统作为基础设施支撑AI应用,具有较高社会价值和技术影响力。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 产品设计专家(主架构)-PICO

    字节跳动 · 上海市
    AI 估算 · 35k-65k
  • 高级/资深后端开发工程师-Commercial AI

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 算法工程师(搜索)-今日头条

    字节跳动 · 北京市
    AI 估算 · 30k-55k
  • 客户端安全工程师

    字节跳动 · 广州市
    AI 估算 · 15k-25k
  • 前端开发工程师-计算

    字节跳动 · 北京市
    AI 估算 · 25k-50k

相似职位推荐

  • Java开发实习生-【主站用增方向】

    快手 · 北京市
    AI 估算 · 4k-6k

字节跳动 的其他在招职位

  • 产品设计专家(主架构)-PICO

    字节跳动 · 上海市
    AI 估算 · 35k-65k
  • 高级/资深后端开发工程师-Commercial AI

    字节跳动 · 北京市
    AI 估算 · 30k-60k
  • 算法工程师(搜索)-今日头条

    字节跳动 · 北京市
    AI 估算 · 30k-55k
  • 客户端安全工程师

    字节跳动 · 广州市
    AI 估算 · 15k-25k
  • 前端开发工程师-计算

    字节跳动 · 北京市
    AI 估算 · 25k-50k

相似职位推荐

  • Java开发实习生-【主站用增方向】

    快手 · 北京市
    AI 估算 · 4k-6k