Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
AML机器学习系统调度研发工程师-Data
立即应聘

AML机器学习系统调度研发工程师-Data

发布于 大约 10 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
学历未注明
分布式系统
PyTorch
GO
TensorFlow
RDMA
GPU调度
机器学习中台

AI 估算 · 25k–45k

上海字节跳动高级工程师,K8s/分布式调度技能热门,薪资具有竞争力,中位数约3.5万/月。

职位详情

关于这个职位

该职位负责字节跳动机器学习中台的资源调度系统,涉及GPU/CPU等异构资源编排、Kubernetes集群管理、分布式调度优化等

你将面对大规模分布式训练和推理场景,解决资源利用率、负载均衡等核心问题,直接支撑抖音、今日头条等业务的高效运行
适合对系统底层原理有深厚兴趣、追求技术挑战的工程师

最低要求

熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言

熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata/Podman等容器技术,有丰富的机器学习系统实践和开发经验
掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护
有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分
有工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动

工作职责

负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech等)的模型训练、模型评估和模型推理

负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用
负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力
负责多机房、多地域、多云场景的在离线任务/服务调度,实现负载合理化分布

优先资格

熟悉至少一种主流的机器学习框架(TensorFlow/PyTorch)

有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU、Accelerators、Networking)

AI 洞察

优缺点分析

优点

  • 团队技术氛围浓厚,在Kubernetes、GPU调度、分布式系统等领域有深厚积累,可学习先进实践
  • 职位与业务紧密相关,工作成果直接提升推荐、广告等核心业务的效率,成就感强
  • 公司资源充足,有机会参与开源项目或发表技术论文,提升个人影响力
  • 需要处理极高并发的资源调度请求,系统设计必须兼顾性能、稳定性和可扩展性
  • 对技术栈要求广且深,需要持续学习容器、调度、网络等领域的更新迭代
  • 适合对系统底层有强烈兴趣、热爱解决复杂分布式问题、渴望在云原生和AI基础设施领域深入发展的工程师

缺点 / 挑战

  • 加入字节跳动核心机器学习中台,接触万亿级规模的数据和算力,技术挑战大、成长快
  • 涉及多业务方和多场景,沟通协调成本较高,需要快速响应和解决复杂问题

角色解读

  • 在技术深度上,可成为分布式调度/云原生领域的专家,主导核心组件的架构演进
  • 在广度上,可横向拓展至AI Infra、HW/SW Co-Design等前沿方向,或转向技术管理
  • 字节跳动内部有丰富的数据和算力场景,成长空间大,可接触业界领先的机器学习基建实践
  • 设计和开发机器学习资源调度系统,优化GPU/CPU等异构资源的编排与使用
  • 利用Kubernetes等容器技术管理大规模分布式集群,实现训练和推理任务的高效调度
  • 处理多机房、多地域、多云场景下的在离线任务调度,保证负载均衡和资源利用率
  • 与算法和业务团队紧密合作,理解训练/推理需求,持续改进调度策略
  • 精通Go或Python,熟练掌握Linux环境开发
  • 深入理解Kubernetes架构和生态,熟悉Docker/Containerd等容器技术
  • 掌握分布式系统原理,有大规模分布式系统的设计、开发和维护经验
  • 逻辑分析能力强,能抽象业务需求并转化为可扩展的系统设计

申请策略

  • 关注字节跳动AML团队的技术博客和开源项目,面试中体现对团队方向的了解和热情
  • 准备一个完整的分布式调度系统设计题,包括资源建模、调度算法、容错等
  • 突出Kubernetes相关项目经验,如自研调度器、集群管理、资源优化等
  • 展示大规模分布式系统设计案例,强调架构决策和性能调优细节
  • 如果涉及机器学习框架或GPU调度,重点描述相关工作和成果
  • 用数据量化成效,如资源利用率提升百分比、调度延迟降低等
  • 深入学习Kubernetes调度器源码和调度策略(如binpacking、拓扑感知)
  • 了解主流GPU虚拟化技术(如vGPU、MIG)及RDMA网络原理

面试指南

  • 对于设计类问题,先明确需求场景和约束,然后提出架构方案(模块划分、数据流),最后讨论权衡和优化
  • 对于原理类问题,从底层机制讲起,结合实践经验说明常见问题和解决策略
  • 对于调优类问题,强调监控、分析瓶颈、提出改进措施,并用量化效果来增强说服力
  • 请设计一个容器调度器,支持GPU资源的显存和算力分配
  • Kubernetes调度器的默认调度策略有哪些?如何实现自定义调度器?
  • 大规模分布式训练中,如何解决网络瓶颈?(RDMA vs TCP)
  • 如何处理集群中GPU资源碎片化问题?
  • 在离线任务混合部署时,如何保证对性能敏感的在线任务不受干扰?

匹配度报告

72
综合匹配度

大厂核心中台,前沿技术栈,薪资优厚,但工作节奏快。

适合人群
最看重技术成长和前沿挑战、能接受较高工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展92
工作生活40
使命价值70

薪资福利匹配

85较高

字节跳动薪资福利在业内有竞争力,但未在JD中明确数字,且上海生活成本较高。整体补偿性动机满足较好。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

92较高

该岗位技术含量高,涉及前沿的AI Infra和云原生技术,有大量成长空间,发展性动机满足度高。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU调度、RDMA、分布式系统、AI Infrastructure、TensorFlow、PyTorch
成长机会前沿研究、通用性和创新性算法
业务类型profit_center

工作生活匹配

40较低

字节跳动工作强度较大,JD未提及弹性办公或WLB,上海办公室通常要求现场办公,生活化动机满足度低。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

70中等

岗位服务于字节系核心业务及火山引擎,对提升推荐系统效率有直接贡献,同时涉及AI for Science等前沿研究,有一定社会价值。

行业发展高速增长赛道
社会影响中性/一般
使命信号AI for Science、科学计算
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 消息中间件产品开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 番茄系内容运营-音乐

    字节跳动 · 北京市
    AI 估算 · 15k-30k
  • 基础框架产品-红果短剧

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • XR系统应用开发工程师-移动OS

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • UX设计师-飞书文档

    字节跳动 · 深圳市
    AI 估算 · 15k-30k

相似职位推荐

  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 60k-90k

字节跳动 的其他在招职位

  • 消息中间件产品开发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 番茄系内容运营-音乐

    字节跳动 · 北京市
    AI 估算 · 15k-30k
  • 基础框架产品-红果短剧

    字节跳动 · 深圳市
    AI 估算 · 20k-35k
  • XR系统应用开发工程师-移动OS

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • UX设计师-飞书文档

    字节跳动 · 深圳市
    AI 估算 · 15k-30k

相似职位推荐

  • Senior Cybersecurity Defence Engineer / Manager

    怡和洋行 · Hong Kong
    AI 估算 · 60k-90k