Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

ByteDance logo
字节跳动
后端调度编排工程师-Data AML
立即应聘

后端调度编排工程师-Data AML

发布于 大约 2 个月前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
软件工程
GPU
GO
推荐系统
机器学习系统
vLLM
分布式调度
Autoscaling

AI 估算 · 30k–60k

字节跳动大厂高级工程师,北京一线城市,分布式调度与ML infra技能稀缺,薪资竞争力强。

职位详情

关于这个职位

该职位负责字节跳动Data AML部门的后端调度与编排系统,重点在于优化分布式资源调度效率,提升算力利用率

你将参与Kubernetes生态调度框架的开发与定制,对接超大规模推荐模型的训练和在线推理架构,涉及AutoScaling、资源优化、多集群调度等前沿技术
适合对分布式系统、机器学习基础设施有热情的高级工程师

最低要求

熟练掌握Linux环境下的Go/Python至少1种编程语言,有良好的编程习惯及编码能力

熟悉分布式系统原理,有机器学习系统相关实践和开发经验优先
熟悉开源的分布式调度框架,诸如Kubernetes(K8s),Yarn(Flink,MapReduce),Mesos,Celery,对其中至少一种有实践积累者优先
熟悉开源的分布式编排系统,例如veRL,vLLM,Ray,TFX,对其中至少一种有开发经验者优先
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速响应和行动

工作职责

分布式编排调度中的资源效能优化,通过工程手段,提升单位算力上支持的业务/模型规模

)使用/二次开发围绕Kubernetes/Godel生态的分布式调度框架,在不同的业务场景下合理选型,并依据不同场景的特点进行集群的利用率/均匀性的调度策略优化
)对接/扩展各类模型、业务的AutoScaling以及自动并行的工作
通过对不同模型的负载建模分析的方法,为模型的资源请求进行自动优化,规模化的优化资源使用效率,达到全局最优
)负责不同优先级服务的抢占/驱逐功能
负责不同集群不同类型资源间的拆借/混部对接工作
负责多机房、多地域、多云场景的调度/负载适配
建设面向下一代超大超深推荐模型的训练系统架构:
)围绕超大规模Embedding以及超大规模GPU同步训练建设弹性、鲁棒的分布式训练Runtime
)设计、优化面向未来推荐广告模型调研范式(例如RL/Finetune/蒸馏)的分布式计算API以及Runtime
)对接平台,优化分布式训练的可诊断性以及易用性
建设面向下一代推荐系统的在线编排架构:
)围绕超大规模Embedding的在线训练场景,构建健壮、稳定的分布式模型推理架构
)结合业务的调研实验模式,优化推荐广告模型在线架构的易用性和MLOps流程

AI 洞察

优缺点分析

优点

  • 技术前沿:直接参与大规模推荐系统的底层调度优化,掌握Kubernetes、Ray等热门技术
  • 薪资福利:大厂高薪、丰厚年终奖,股票期权,完善的福利体系
  • 技术难度高:需要同时掌握分布式系统、机器学习、调度算法等多领域知识
  • 工作强度大:互联网公司节奏快,可能面临高压和加班
  • 竞争激烈:内部技术氛围浓厚,对自我驱动和学习能力要求高
  • 适合对分布式系统底层技术有强烈兴趣,愿意在机器学习基础设施方向深耕,抗压能力强、自驱力高的高级工程师

缺点 / 挑战

  • 平台优势:字节跳动拥有海量数据和超大规模模型,项目挑战大、技术成长快

角色解读

  • 技术深耕:成为分布式调度和ML基础设施领域的专家,主导核心组件设计
  • 架构转型:向系统架构师发展,负责大规模分布式系统的整体架构设计
  • 管理路线:未来可转向技术团队管理,带领团队推进调度和编排平台的建设
  • 设计和优化分布式调度系统,基于Kubernetes等框架提升集群资源利用率
  • 参与超大规模推荐模型的训练与推理架构建设,包括弹性分布式训练Runtime和在线编排
  • 开发AutoScaling和资源自动优化工具,通过负载建模实现全局最优资源分配
  • 负责多集群、多地域、多云场景的调度适配,以及资源抢占和混部功能
  • 精通Go或Python,熟悉Linux环境下的系统编程
  • 深入理解分布式系统原理,有Kubernetes等调度框架的实践或二次开发经验
  • 了解机器学习系统(MLSys)基础,熟悉模型训练/推理流程
  • 熟悉至少一种分布式编排系统,如Ray、vLLM、veRL等

申请策略

  • 关注字节跳动Data AML团队的技术博客和开源项目,提前了解其技术栈和业务方向
  • 准备一个完整的分布式系统设计案例,展示从问题分析到方案落地的能力
  • 突出Kubernetes、Yarn等调度框架的项目经验,尤其是优化资源利用率的成果
  • 展示机器学习系统相关项目,如模型分布式训练、推理部署、AutoScaling等
  • 强调Go/Python编程能力,以及系统性能调优案例
  • 如果有参与开源项目(如Kubernetes、Ray)的经验,务必列出
  • 补充学习分布式系统经典理论(如一致性、容错性)
  • 实践Kubernetes的二次开发,了解Operator和Scheduler扩展机制

面试指南

  • 先明确问题背景和约束,再给出分层解决方案:从资源抽象、调度策略、监控反馈等层面展开
  • 结合实际项目经验,先说遇到的挑战,再讲具体设计和效果,最后总结可推广的经验
  • 对于开放性问题,先画系统框图,定义核心模块和接口,再逐步细化
  • 请描述Kubernete scheduler的调度流程,如何实现自定义调度策略?
  • 如何优化大规模GPU集群的资源利用率?请从分配、抢占、混部等角度说明
  • 对于推荐模型的在线推理,如何处理高并发和低延迟?谈谈你的架构设计
  • 解释一下Model parallelism和Pipeline parallelism的区别,以及在分布式训练中的应用
  • 如果一个任务长时间占用了大量GPU资源,但实际利用率不高,你如何设计一个自动资源回收方案?

职位点评

65
综合评分

字节跳动大厂,前沿技术栈,高薪高压,技术成长快。

更适合这类人
适合追求技术深度和前沿挑战、以职业成长为首要目标的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展85
工作生活40
使命价值60

薪资福利

75中等

字节跳动作为互联网大厂,薪资福利处于市场领先水平,但未在JD中明确披露具体数字,整体补偿性较好。

薪资信号未披露(AI估算:30K-60K/月)

成长发展

85较高

该职位涉及前沿的分布式调度和ML基础设施技术,能够深度接触大规模系统,技术成长空间很大。

技术前沿前沿/新兴技术
技术栈Kubernetes、AutoScaling、GPU、Ray、vLLM、MLOps
业务类型ambiguous

工作生活

40较低

JD未提及办公灵活性和WLB,依据行业惯例,字节跳动工作强度较大,生活化满足程度偏低。

工作模式未明确
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

60中等

该职位属于AI基础设施,服务于推荐广告模型,对技术推动有贡献,但社会影响力相对中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 虚假模型运营-抖音编辑

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • 推荐算法工程师-抖音

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 渠道运营经理-飞书 Channel Operations Manager - Lark

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 区域客户销售经理(华北大区)-飞书

    字节跳动 · 郑州市
    AI 估算 · 15k-25k
  • 前端开发专家-抖音游戏

    字节跳动 · 深圳市
    AI 估算 · 30k-50k

相似职位推荐

  • BIOS工程师

    浪潮 · 杭州市
    AI 估算 · 25k-45k
  • Senior Firmware Engineer

    伊顿中国 · 西安市
    AI 估算 · 15k-25k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-25k
  • Machine Learning Engineer

    高通 · 上海市
    AI 估算 · 25k-45k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-30k

字节跳动 的其他在招职位

  • 虚假模型运营-抖音编辑

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • 推荐算法工程师-抖音

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 渠道运营经理-飞书 Channel Operations Manager - Lark

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 区域客户销售经理(华北大区)-飞书

    字节跳动 · 郑州市
    AI 估算 · 15k-25k
  • 前端开发专家-抖音游戏

    字节跳动 · 深圳市
    AI 估算 · 30k-50k

相似职位推荐

  • BIOS工程师

    浪潮 · 杭州市
    AI 估算 · 25k-45k
  • Senior Firmware Engineer

    伊顿中国 · 西安市
    AI 估算 · 15k-25k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-25k
  • Machine Learning Engineer

    高通 · 上海市
    AI 估算 · 25k-45k
  • Industrial Engineering ES

    德科斯米尔 · 沈阳市
    AI 估算 · 15k-30k