Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
后端调度编排工程师-Data AML
立即应聘

后端调度编排工程师-Data AML

发布于 大约 15 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
GPU
GO
推荐系统
机器学习系统
vLLM
分布式调度
Autoscaling

AI 估算 · 30k–60k

字节跳动大厂高级工程师,北京一线城市,分布式调度与ML infra技能稀缺,薪资竞争力强。

职位详情

关于这个职位

该职位负责字节跳动Data AML部门的后端调度与编排系统,重点在于优化分布式资源调度效率,提升算力利用率

你将参与Kubernetes生态调度框架的开发与定制,对接超大规模推荐模型的训练和在线推理架构,涉及AutoScaling、资源优化、多集群调度等前沿技术
适合对分布式系统、机器学习基础设施有热情的高级工程师

最低要求

熟练掌握Linux环境下的Go/Python至少1种编程语言,有良好的编程习惯及编码能力

熟悉分布式系统原理,有机器学习系统相关实践和开发经验优先
熟悉开源的分布式调度框架,诸如Kubernetes(K8s),Yarn(Flink,MapReduce),Mesos,Celery,对其中至少一种有实践积累者优先
熟悉开源的分布式编排系统,例如veRL,vLLM,Ray,TFX,对其中至少一种有开发经验者优先
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速响应和行动

工作职责

分布式编排调度中的资源效能优化,通过工程手段,提升单位算力上支持的业务/模型规模

)使用/二次开发围绕Kubernetes/Godel生态的分布式调度框架,在不同的业务场景下合理选型,并依据不同场景的特点进行集群的利用率/均匀性的调度策略优化
)对接/扩展各类模型、业务的AutoScaling以及自动并行的工作
通过对不同模型的负载建模分析的方法,为模型的资源请求进行自动优化,规模化的优化资源使用效率,达到全局最优
)负责不同优先级服务的抢占/驱逐功能
负责不同集群不同类型资源间的拆借/混部对接工作
负责多机房、多地域、多云场景的调度/负载适配
建设面向下一代超大超深推荐模型的训练系统架构:
)围绕超大规模Embedding以及超大规模GPU同步训练建设弹性、鲁棒的分布式训练Runtime
)设计、优化面向未来推荐广告模型调研范式(例如RL/Finetune/蒸馏)的分布式计算API以及Runtime
)对接平台,优化分布式训练的可诊断性以及易用性
建设面向下一代推荐系统的在线编排架构:
)围绕超大规模Embedding的在线训练场景,构建健壮、稳定的分布式模型推理架构
)结合业务的调研实验模式,优化推荐广告模型在线架构的易用性和MLOps流程

AI 洞察

优缺点分析

优点

  • 技术前沿:直接参与大规模推荐系统的底层调度优化,掌握Kubernetes、Ray等热门技术
  • 薪资福利:大厂高薪、丰厚年终奖,股票期权,完善的福利体系
  • 技术难度高:需要同时掌握分布式系统、机器学习、调度算法等多领域知识
  • 工作强度大:互联网公司节奏快,可能面临高压和加班
  • 竞争激烈:内部技术氛围浓厚,对自我驱动和学习能力要求高
  • 适合对分布式系统底层技术有强烈兴趣,愿意在机器学习基础设施方向深耕,抗压能力强、自驱力高的高级工程师

缺点 / 挑战

  • 平台优势:字节跳动拥有海量数据和超大规模模型,项目挑战大、技术成长快

角色解读

  • 技术深耕:成为分布式调度和ML基础设施领域的专家,主导核心组件设计
  • 架构转型:向系统架构师发展,负责大规模分布式系统的整体架构设计
  • 管理路线:未来可转向技术团队管理,带领团队推进调度和编排平台的建设
  • 设计和优化分布式调度系统,基于Kubernetes等框架提升集群资源利用率
  • 参与超大规模推荐模型的训练与推理架构建设,包括弹性分布式训练Runtime和在线编排
  • 开发AutoScaling和资源自动优化工具,通过负载建模实现全局最优资源分配
  • 负责多集群、多地域、多云场景的调度适配,以及资源抢占和混部功能
  • 精通Go或Python,熟悉Linux环境下的系统编程
  • 深入理解分布式系统原理,有Kubernetes等调度框架的实践或二次开发经验
  • 了解机器学习系统(MLSys)基础,熟悉模型训练/推理流程
  • 熟悉至少一种分布式编排系统,如Ray、vLLM、veRL等

申请策略

  • 关注字节跳动Data AML团队的技术博客和开源项目,提前了解其技术栈和业务方向
  • 准备一个完整的分布式系统设计案例,展示从问题分析到方案落地的能力
  • 突出Kubernetes、Yarn等调度框架的项目经验,尤其是优化资源利用率的成果
  • 展示机器学习系统相关项目,如模型分布式训练、推理部署、AutoScaling等
  • 强调Go/Python编程能力,以及系统性能调优案例
  • 如果有参与开源项目(如Kubernetes、Ray)的经验,务必列出
  • 补充学习分布式系统经典理论(如一致性、容错性)
  • 实践Kubernetes的二次开发,了解Operator和Scheduler扩展机制

面试指南

  • 先明确问题背景和约束,再给出分层解决方案:从资源抽象、调度策略、监控反馈等层面展开
  • 结合实际项目经验,先说遇到的挑战,再讲具体设计和效果,最后总结可推广的经验
  • 对于开放性问题,先画系统框图,定义核心模块和接口,再逐步细化
  • 请描述Kubernete scheduler的调度流程,如何实现自定义调度策略?
  • 如何优化大规模GPU集群的资源利用率?请从分配、抢占、混部等角度说明
  • 对于推荐模型的在线推理,如何处理高并发和低延迟?谈谈你的架构设计
  • 解释一下Model parallelism和Pipeline parallelism的区别,以及在分布式训练中的应用
  • 如果一个任务长时间占用了大量GPU资源,但实际利用率不高,你如何设计一个自动资源回收方案?

匹配度报告

65
综合匹配度

字节跳动大厂,前沿技术栈,高薪高压,技术成长快。

适合人群
适合追求技术深度和前沿挑战、以职业成长为首要目标的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展85
工作生活40
使命价值60

薪资福利匹配

75中等

字节跳动作为互联网大厂,薪资福利处于市场领先水平,但未在JD中明确披露具体数字,整体补偿性较好。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

85较高

该职位涉及前沿的分布式调度和ML基础设施技术,能够深度接触大规模系统,技术成长空间很大。

技术前沿前沿/新兴技术
技术栈Kubernetes、AutoScaling、GPU、Ray、vLLM、MLOps
业务类型ambiguous

工作生活匹配

40较低

JD未提及办公灵活性和WLB,依据行业惯例,字节跳动工作强度较大,生活化满足程度偏低。

工作模式未明确
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

该职位属于AI基础设施,服务于推荐广告模型,对技术推动有贡献,但社会影响力相对中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 测试开发工程师(服务端)-生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 商城首页产品经理-抖音电商

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • Android测试开发工程师-移动OS

    字节跳动 · 北京市
    AI 估算 · 30k-45k
  • 测试开发工程师-国际化广告

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 新加坡机构生态运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-40k

相似职位推荐

  • Unity客户端开发工程师-【游戏事业部】

    快手 · 广州市
    AI 估算 · 15k-30k
  • 前端研发实习生-【用户体验】

    快手 · 北京市
    AI 估算 · 4k-7k
  • JAVA开发-语音后端

    中国平安 · 深圳市
    AI 估算 · 35k-50k
  • 资深Agent算法工程师

    中国平安 · 深圳市
    AI 估算 · 30k-60k
  • 算法

    中国平安 · 上海市
    AI 估算 · 25k-45k

字节跳动 的其他在招职位

  • 测试开发工程师(服务端)-生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 商城首页产品经理-抖音电商

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • Android测试开发工程师-移动OS

    字节跳动 · 北京市
    AI 估算 · 30k-45k
  • 测试开发工程师-国际化广告

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 新加坡机构生态运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-40k

相似职位推荐

  • Unity客户端开发工程师-【游戏事业部】

    快手 · 广州市
    AI 估算 · 15k-30k
  • 前端研发实习生-【用户体验】

    快手 · 北京市
    AI 估算 · 4k-7k
  • JAVA开发-语音后端

    中国平安 · 深圳市
    AI 估算 · 35k-50k
  • 资深Agent算法工程师

    中国平安 · 深圳市
    AI 估算 · 30k-60k
  • 算法

    中国平安 · 上海市
    AI 估算 · 25k-45k