Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型训练调度专家-Seed
立即应聘

大模型训练调度专家-Seed

发布于 大约 21 小时前

普通员工/个人贡献者

杭州市
专家级经验
全职员工
仅现场办公
学历未注明
信息技术与基础设施
分布式系统
GPU
PyTorch
GO
RDMA
资源调度
大模型训练

AI 估算 · 40k–70k

字节跳动大模型专家岗,薪资对标互联网一线,技术稀缺度高,月薪40k-70k,15薪

职位详情

关于这个职位

作为字节跳动Seed团队的大模型训练调度专家,你将负责设计并优化大规模分布式机器学习系统的资源调度,确保GPU、CPU等异构资源的高效利用

你将参与前沿的大模型训练、推理和评估场景,通过技术手段提升集群利用率和任务调度效率,直接支撑豆包、即梦等核心应用的AI能力
这是一个深度参与AI基础设施、解决超大规模计算挑战的技术专家岗位

最低要求

熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言

熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata/Podman等容器技术,有丰富的机器学习系统实践和开发经验
掌握分布式系统原理,参与过分布式系统的设计、开发和维护
有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动
有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档

工作职责

负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech等)的模型训练、模型评估和模型推理

负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用
负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力
负责多机房、多地域、多云场景的在离线任务/服务调度,实现负载的合理化分布
负责资源的复用和利用率的提升,更好的利用大模型场景中的预训练、后训练、离线推理、评估等任务的特性,优化排队、优先级、抢占等逻辑,提升集群利用率

优先资格

熟悉至少一种主流的机器学习框架,如PyTorch/Megatron-LM等

熟悉ray框架或其他强化学习相关计算框架
有以下某一方向领域的经验:数据驱动的机器学习系统、AI任务容错、高性能计算/RDMA网络/存储、操作系统内核、GPU硬件驱动等
在计算机系统网络顶会OSDI/SOSP/NSDI/ATC/EuroSys上有文章发表经验

AI 洞察

优缺点分析

优点

  • 字节跳动平台资源丰富,业务场景多样,技术影响力广,有机会接触业界顶级团队
  • 薪资福利有竞争力,团队氛围偏技术驱动,鼓励创新和自驱
  • 技术栈复杂,需同时掌握分布式系统、容器编排、硬件知识等,学习曲线陡峭
  • 团队处于快速发展期,可能会涉及较多跨部门协作和系统迭代,需较强的沟通能力

缺点 / 挑战

  • 参与前沿大模型基础设施建设,技术挑战大、成长快,积累稀缺的高性能计算调度经验
  • 工作强度较高,大模型训练任务对系统稳定性和效率要求极高,需快速响应问题
  • 适合有扎实分布式系统背景、对资源调度和AI基础设施有浓厚兴趣、愿意在高压力下快速成长的技术专家

角色解读

  • 技术纵深发展:成为AI基础设施领域的资源调度专家,深入分布式系统、高性能计算方向
  • 技术管理方向:可晋升为技术Leader,带领团队负责更大规模的调度系统架构
  • 跨领域拓展:转向AI平台架构、云原生基础设施或MLOps等方向
  • 设计并开发机器学习资源调度系统,优化大模型训练、推理等任务的资源分配
  • 管理异构资源(GPU/CPU等)的编排与调度,提升集群利用率和稳定性
  • 参与多机房、多云的分布式调度策略,实现负载均衡与故障容错
  • 精通Go/Python语言,熟悉Kubernetes和容器技术,有大规模分布式系统开发经验
  • 掌握分布式系统原理,了解资源调度算法,具备系统性能调优能力
  • 对机器学习框架(PyTorch等)和训练流程有一定理解,能结合业务优化调度逻辑

申请策略

  • 关注字节跳动Seed团队的技术博客和开源项目,面试中展现对团队技术方向的了解
  • 准备系统设计题时,可围绕大规模资源调度场景设计高可用、弹性伸缩方案
  • 突出分布式系统设计和开发经验,尤其是Kubernetes或容器调度相关项目
  • 列举大规模集群资源调度或优化案例,说明具体问题和量化成果
  • 展示对机器学习训练流程的理解,如预训练、后训练的资源需求差异
  • 如有开源贡献或技术博客,可体现技术深度和影响力
  • 深入学习Kubernetes调度器源码和自定义调度器开发
  • 了解主流GPU集群调度方案(如Volcano、Yunikorn)及Ray框架

面试指南

  • 对于系统设计题,可先明确需求和约束,然后分层阐述架构(如控制面、数据面、调度策略),最后讨论容错和扩展性
  • 对于调度算法题,可结合具体场景(如预训练、微调)分析资源特征,设计优先级队列和资源预留机制
  • 对于Kubernetes相关问题,可从CRD、Operator、Scheduler Framework等角度展开,结合项目经验
  • 如何设计一个支持抢占和优先级的集群资源调度系统?
  • 在Kubernetes中如何实现GPU显存和算力的精确调度?
  • 大规模分布式训练中,如何优化资源利用率并减少因故障导致的任务中断?
  • 解释一下Kubernetes scheduler的调度框架,如何扩展自定义调度逻辑?
  • 面对多机房、多云场景,如何实现负载均衡和故障迁移?

匹配度报告

72
综合匹配度

字节大模型团队,前沿技术栈,高薪但WLB一般,适合技术驱动型人才。

适合人群
最适合追求技术成长和薪资回报、愿意接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值75

薪资福利匹配

85较高

薪资水平在行业内处于高位,字节跳动福利完善(五险一金、补充医疗、免费三餐等),且专家岗通常享有股票期权,补偿性动机满足度较高。

薪资信号面议 (40K-70K/月)

成长发展匹配

90较高

岗位涉及前沿的大模型和分布式系统技术,技术挑战性强,团队技术氛围浓厚,成长空间大。JD未明确提及晋升通道,但字节内部有完善的职级体系。

技术前沿前沿/新兴技术
技术栈Kubernetes、Docker、GPU、RDMA、分布式系统、大模型
业务类型profit_center

工作生活匹配

40较低

字节跳动工作节奏较快,大模型训练任务可能涉及24小时值班或紧急响应,WLB一般。JD未提及弹性办公或远程,默认现场办公。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

75中等

所在团队致力于通用人工智能研究,方向前沿,社会价值较高,能参与推动AI技术进步。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号为科技和社会发展作出贡献
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 商家BD-抖音生活服务

    字节跳动 · 成都市
    AI 估算 · 10k-20k
  • 商家BD-抖音生活服务

    字节跳动 · 三亚市
    AI 估算 · 8k-20k
  • 商家BD-抖音生活服务

    字节跳动 · 东莞市
    AI 估算 · 8k-15k
  • 算法工程师-地理位置中台(北京/上海/深圳)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • AI素材创意策划-ONE Studio

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • Staff Machine Learning Engineer, ML Infrastructure - Online

    Unity Technologies · 上海市
    AI 估算 · 50k-80k
  • 运维工程开发实习生-【架构治理/SRE】

    快手 · 北京市
    AI 估算 · 4k-6k
  • AI服务DevOps工程师

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • 22301-Digital Talent Trainee

    梅特勒托利多 · 上海市
    AI 估算 · 12k-18k
  • IT iNTERN

    美敦力 · 上海市
    AI 估算 · 4k-6k

字节跳动 的其他在招职位

  • 商家BD-抖音生活服务

    字节跳动 · 成都市
    AI 估算 · 10k-20k
  • 商家BD-抖音生活服务

    字节跳动 · 三亚市
    AI 估算 · 8k-20k
  • 商家BD-抖音生活服务

    字节跳动 · 东莞市
    AI 估算 · 8k-15k
  • 算法工程师-地理位置中台(北京/上海/深圳)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • AI素材创意策划-ONE Studio

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • Staff Machine Learning Engineer, ML Infrastructure - Online

    Unity Technologies · 上海市
    AI 估算 · 50k-80k
  • 运维工程开发实习生-【架构治理/SRE】

    快手 · 北京市
    AI 估算 · 4k-6k
  • AI服务DevOps工程师

    米哈游 · 上海市
    AI 估算 · 25k-45k
  • 22301-Digital Talent Trainee

    梅特勒托利多 · 上海市
    AI 估算 · 12k-18k
  • IT iNTERN

    美敦力 · 上海市
    AI 估算 · 4k-6k