Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
AML机器学习系统-后端调度编排工程师
立即应聘

AML机器学习系统-后端调度编排工程师

发布于 1 天前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
软件工程
机器学习
分布式系统
PyTorch
GO
TensorFlow

AI 估算 · 30k–55k

字节跳动高级工程师,北京,分布式调度方向技术要求高,薪资处于大厂P6-P7水平,极具竞争力。

职位详情

关于这个职位

该职位负责字节跳动推荐、广告、搜索等业务的机器学习系统的资源调度和编排

你将参与分布式调度层、资源撮合层以及训练场景的系统设计开发,优化集群利用率和资源分配效率
适合对大规模分布式系统和高性能计算有浓厚兴趣的后端工程师

最低要求

熟练掌握Linux环境下的Go/Python至少1种编程语言,Hands-on具备优秀的coding能力

熟悉一些开源的分布式调度框架,诸如 Kubernetes(K8S),Yarn(Flink,MapReduce),Mesos,Celery ,有丰富的机器学习系统实践和开发经验
掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护
有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动
有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档

工作职责

系统涉及如下工作,可以至少参与其中一层:

分布式调度层,解决单服务的分布式部署:
(a)使用/二次开发 诸如 Kubernetes,Yarn,Mesos,Celery 等分布式调度框架,并可以在不同的业务场景下合理选型
依据各框架的特点进行集群的利用率/均匀性的调度策略优化
(b)对接/扩展各框架在 水平/垂直 扩展甚至AutoScaling的工作
参与多集群混合调度(类似FedK8s)的适配工作
负责不同优先级服务的抢占/驱逐功能
负责不同集群不同类型资源间的拆借/混部对接工作
负责多机房、多地域、多云场景的调度/负载适配
资源撮合层,解决多角色之间的资源联合分配问题:从全局角度进行分配率 和 资源运营效率的优化
解决各种CPU/GPU/其他异构硬件/模型数据/样本数据/外部调用资源间的容量协调和联合匹配
感知拓扑限制,进行微拓扑优化,从而优化整体网络带宽使用
海量资源和多租户的预算/交付联动
保障性资源/预算外资源,以及混部/超卖的场景对接
参与训练场景的流程/功能需求,诸如阶段性编排,批流阶段封装
提升训练单副本服务的稳定性,如Failover保护
更多的备份点策略
可观测性,可操作性,用户体验优化
参与包括离线到在线同步,数据一致性和更新时效性优化
也包括在线服务多副本的异构资源/稳定性预案的流量调度
模型与服务的动态在线编排和集群间坐落编排

优先资格

熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch )

有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking)
有一些开源的训练编排系统使用/设计经验:TFX

AI 洞察

优缺点分析

优点

  • 接触前沿的分布式调度和AI基础设施技术,技能积累价值高
  • 大厂平台稳定,薪酬福利有竞争力,内部技术氛围浓厚
  • 技术深度要求高,需要持续学习Kubernetes生态和分布式理论
  • 工作节奏较快,可能需要应对紧急故障和优化需求
  • 适合具备扎实分布式系统基础、热爱底层调度技术、追求技术深度和影响力的后端工程师

缺点 / 挑战

  • 深度参与字节跳动核心推荐/广告业务,技术挑战大,成长迅速
  • 系统规模和复杂度极高,需要应对海量请求和资源调度压力

角色解读

  • 成为分布式调度领域的专家,主导大规模集群调度架构演进
  • 横向扩展至AI基础设施或高性能计算方向,参与硬件协同设计
  • 内部可晋升为技术负责人(TL),带领团队攻克核心系统挑战
  • 设计并优化分布式调度系统,使用Kubernetes等框架管理机器学习任务资源,提升集群利用率
  • 参与资源撮合层开发,协调CPU、GPU等异构资源池,实现全局最优分配
  • 改进训练和推理流程的编排与稳定性,包括Failover和可观测性建设
  • 精通Go或Python,具备大规模分布式系统的开发经验
  • 深入理解Kubernetes、YARN等调度框架,能进行二次开发和策略优化
  • 掌握分布式系统原理,擅长逻辑抽象和系统拆分

申请策略

  • 关注字节跳动技术博客和开源项目,了解他们在调度领域的实践
  • 面试前准备系统设计题目,特别是大规模资源调度和分布式一致性相关
  • 突出你在Kubernetes或YARN等调度框架上的实践经验和优化成果
  • 强调大规模分布式系统的设计、维护或性能调优项目
  • 展示Go/Python的高质量代码能力,包括开源贡献或复杂系统开发
  • 深入学习Kubernetes调度器原理和源码,尝试编写自定义调度器
  • 熟悉至少一种机器学习框架(TensorFlow/PyTorch)的基本训练流程
  • 补充高性能计算(HPC)或硬件架构知识,增强竞争力

面试指南

  • 采用分层抽象和策略模式,将调度逻辑与具体框架解耦
  • 从资源利用率、公平性和业务SLA三个维度权衡,引入动态优先级和驱逐机制
  • 结合具体事例,强调问题定位、解决方案和量化改进效果
  • 如何设计一个支持多租户和优先级抢占的分布式调度系统?
  • Kubernetes调度器的工作流程是什么?如何优化调度效率?
  • 请描述一个你处理过的分布式系统故障或性能瓶颈的案例
  • 在资源池异构(CPU/GPU/NPU)的情况下,如何实现最优分配?
  • 复习Kubernetes调度器源码和官方设计文档,重点关注调度策略和调度框架

职位点评

78
综合评分

大厂核心业务,前沿技术栈,发展空间极大,但WLB一般。

更适合这类人
最适合追求技术深度和职业发展,能接受一定工作强度的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展95
工作生活60
使命价值70

薪资福利

85较高

薪资在大厂中属偏高水平,且公司提供完善福利,补偿性动机满足度较高。

薪资信号未披露(AI估算:30K-55K/月)

成长发展

95较高

技术栈前沿(Kubernetes、AI基础设施),成长空间极大,可深入分布式系统核心。

技术前沿前沿/新兴技术
技术栈Kubernetes、Yarn、Mesos、Celery、Go、Python、分布式调度、ML infrastructure
业务类型profit_center

工作生活

60中等

字节跳动工作节奏较快,可能需要一定强度的加班,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

职位支撑字节核心业务,技术影响力大,但JD未体现社会使命感。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 客户端安全工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 区域配送商务Leader-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 50k-80k
  • 零售行业高级解决方案经理-火山引擎

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • C端内容产品设计师-生活服务(上海)

    字节跳动 · 上海市
    AI 估算 · 20k-40k
  • 云原生产品专家-微服务

    字节跳动 · 上海市
    AI 估算 · 35k-60k

相似职位推荐

  • 平台开发工程师

    中国移动 · 北京市
    AI 估算 · 20k-35k

字节跳动 的其他在招职位

  • 客户端安全工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 区域配送商务Leader-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 50k-80k
  • 零售行业高级解决方案经理-火山引擎

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • C端内容产品设计师-生活服务(上海)

    字节跳动 · 上海市
    AI 估算 · 20k-40k
  • 云原生产品专家-微服务

    字节跳动 · 上海市
    AI 估算 · 35k-60k

相似职位推荐

  • 平台开发工程师

    中国移动 · 北京市
    AI 估算 · 20k-35k