Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Xiaohongshu logo
小红书
GPU调度研发工程师/专家
立即应聘

GPU调度研发工程师/专家

发布于 大约 15 小时前

普通员工/个人贡献者

上海市 / 北京市
专家级经验
全职员工
仅现场办公
学历未注明
软件工程
NCCL
云原生
大模型
GPU调度
Volcano
Kueue

AI 估算 · 40k–70k

大厂核心岗位,GPU调度技术稀缺,月薪40-70k,年终奖可观。

职位详情

关于这个职位

该职位负责小红书万卡级GPU调度系统的建设与优化,涉及资源效率提升、训推统一调度、资源利用率治理等核心工作,是支撑大模型训练和推理的关键角色

你将与云原生、算法、IDC等多团队协作,探索前沿AI资源调度技术,适合对大规模分布式系统和GPU调度有深厚兴趣的技术专家

最低要求

熟悉云原生生态及工具,如 Kubernetes、Kubeflow、Volcano、Kueue 等,有调度系统开发经验优先

熟悉 GPU 集群调度、GPU 虚拟化、Quota 管理、故障容错、资源弹性伸缩、高速网络 / 存储等方向中的至少一类
了解大模型训练、后训练、推理、部署等生命周期,理解不同负载对 GPU 资源、网络、存储和调度策略的差异化诉求
熟练掌握 Python、Golang、C++ 或其他编程语言中的一门或多门,具备良好的工程实现能力
具备优秀的逻辑分析能力和系统抽象能力,能够基于真实业务负载进行问题拆解、策略设计和工程落地
有良好的沟通协作能力,能与平台、云原生、算法、业务、IDC、网络和存储团队协同推进复杂项目

工作职责

万卡级 GPU 调度系统建设: 参与大规模 GPU 集群调度系统建设,围绕 Quota、优先级、抢占、弹性伸缩、碎片整理、拓扑感知调度等能力提升资源效率

训推统一调度: 面向大模型训练、后训练、推理服务等不同负载,设计训推统一调度、潮汐混部、在线离线协同和资源弹性策略
资源利用率治理: 建设 GPU 资源利用率分析体系,基于真实负载数据识别低效资源、资源碎片、潮汐空闲和调度瓶颈
LLMOps 平台融合: 参与构建面向大模型训练、微调、推理、部署全流程的 LLMOps 能力,与云原生平台深度融合,支撑大模型生产链路稳定高效落地
集群稳定性建设: 与云原生、IDC、网络、存储和业务团队协作,提升大规模 AI 集群的故障恢复能力、资源周转效率和任务稳定性
前沿技术探索: 持续关注 Kubernetes、Volcano、Kueue、Ray、GPU 虚拟化、弹性调度等相关技术,探索下一代 AI 资源调度系统

优先资格

加分项 : 1、有大模型场景下负载特征分析、GPU 集群调度、资源利用率优化、高性能网络 / 存储等实践经验

有 GPU 虚拟化、在线 / 离线混部、潮汐调度、抢占式调度、碎片整理等落地经验
有大规模训练或推理集群端到端优化经验,理解训练和推理负载在调度侧的差异
熟悉 RDMA、IB、RoCE、NCCL 等通信机制,能结合网络拓扑优化调度策略
有 Kubernetes Scheduler、Volcano、Kueue、Ray、YARN、Airflow 等调度系统开发经验

AI 洞察

优缺点分析

优点

  • 岗位涉及前沿技术(Kubernetes、Ray、GPU虚拟化),紧跟AI基础设施发展方向
  • 公司资源投入大,团队技术氛围好,有机会与业界专家合作
  • 技术栈深且更新快,要求持续学习,保持对云原生和AI调度技术的敏感度
  • 跨团队协作多,沟通成本高,需平衡多方需求
  • 适合对分布式系统、调度算法和AI基础设施有浓厚兴趣,喜欢解决大规模技术难题,并愿意在高速发展平台上深耕的技术人员

缺点 / 挑战

  • 小红书业务增长强劲,GPU集群规模大,技术挑战高,能积累稀缺的大规模调度经验
  • 工作强度可能较高,需应对大规模集群的复杂问题和紧急故障

角色解读

  • 技术深耕:从调度系统工程师成长为分布式系统架构师或AI基础设施专家
  • 管理方向:晋升为技术主管,带领调度团队,负责更大规模集群
  • 横向拓展:向LLMOps全流程、云原生平台或AI平台架构方向发展
  • 设计并实现万卡级GPU调度系统,优化资源利用率和任务效率
  • 制定训推统一调度策略,平衡大模型训练、微调和推理等不同负载
  • 分析GPU资源使用数据,识别碎片和瓶颈,推动治理改进
  • 与云原生、算法、IDC等团队协作,保障大规模集群稳定性
  • 精通云原生技术栈(Kubernetes、Volcano、Kueue等),有调度系统开发经验
  • 深入理解GPU集群调度、虚拟化、资源弹性伸缩等方向之一
  • 掌握Python、Golang或C++,具备扎实的工程能力
  • 熟悉大模型训练/推理生命周期及不同负载对资源的需求差异

申请策略

  • 在面试中准备一个你主导的调度或资源优化项目,详细说明问题、方案和效果
  • 了解小红书大模型业务方向,思考实际场景下的调度挑战
  • 突出云原生调度系统开发经验,尤其是Kubernetes、Volcano或自定义调度器项目
  • 强调GPU集群相关实践,如资源利用率优化、虚拟化、混部等案例
  • 展示参与大型项目(万卡级)或开源贡献,体现系统设计和协作能力
  • 若缺乏调度系统经验,可先深入学习Kubernetes调度框架和源码
  • 补充GPU虚拟化(如CUDA MPS、vGPU)和NCCL通信机制知识

面试指南

  • 针对设计类问题:先分解需求(如优先级、弹性),然后提出方案(如队列机制、抢占策略),并讨论权衡
  • 针对优化问题:用STAR方法(情境、任务、行动、结果),结合具体数据和指标
  • 如何设计一个支持优先级抢占和弹性伸缩的GPU调度器?
  • 解释在大模型训练和推理场景下,调度策略有何不同?
  • 如何检测和解决GPU集群中的资源碎片问题?
  • 描述一次你优化资源利用率的经历,用了哪些指标和手段?
  • Kubernetes默认调度器如何支持GPU调度?如何扩展?
  • 复习Kubernetes调度框架(Scheduling Framework)、Volcano和Kueue的设计

匹配度报告

66
综合匹配度

大厂核心AI基础设施岗,前沿技术栈,发展空间极大,但工作强度较高且无远程。

适合人群
最适合技术成长驱动型求职者,希望深入AI基础设施前沿、不介意高强度工作。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活30
使命价值70

薪资福利匹配

70中等

薪资竞争力强,小红书作为大厂提供有吸引力的薪酬包,但JD未具体披露福利。

薪资信号面议 (40K-70K/月)

成长发展匹配

95较高

岗位涉及前沿技术(云原生、AI调度),成长空间大,JD提及探索下一代技术,但未明确晋升通道。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU调度、大模型、Volcano、Kueue、Ray、GPU虚拟化、NCCL
业务类型profit_center

工作生活匹配

30较低

仅现场办公,且未提及弹性工作,日常需处理大规模集群问题,工作强度可能较高。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI基础设施对行业推动明显,但小红书主要聚焦商业应用,社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • PE工程师(偏客户端方向)-社区互动

    小红书 · 北京市
    AI 估算 · 35k-60k
  • 组织与人才发展专家

    小红书 · 北京市
    AI 估算 · 15k-25k
  • 数据仓库工程师-rednote

    小红书 · 深圳市
    AI 估算 · 15k-25k
  • PE工程师(偏iOS架构)-主站社交

    小红书 · 北京市
    AI 估算 · 35k-65k
  • PE工程师(偏iOS方向) - 主站社交方向

    小红书 · 北京市
    AI 估算 · 20k-40k

相似职位推荐

  • 高级/资深Java开发工程师(推荐排序算法方向)(MJ035389)

    携程 · 上海市
    AI 估算 · 28k-45k
  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 25k-40k
  • Director, Go-to-Market

    西门子 · China
    AI 估算 · 40k-70k
  • C++ 开发工程师

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • C++开发实习生

    小马智行 · 广州市
    AI 估算 · 4k-6k

小红书 的其他在招职位

  • PE工程师(偏客户端方向)-社区互动

    小红书 · 北京市
    AI 估算 · 35k-60k
  • 组织与人才发展专家

    小红书 · 北京市
    AI 估算 · 15k-25k
  • 数据仓库工程师-rednote

    小红书 · 深圳市
    AI 估算 · 15k-25k
  • PE工程师(偏iOS架构)-主站社交

    小红书 · 北京市
    AI 估算 · 35k-65k
  • PE工程师(偏iOS方向) - 主站社交方向

    小红书 · 北京市
    AI 估算 · 20k-40k

相似职位推荐

  • 高级/资深Java开发工程师(推荐排序算法方向)(MJ035389)

    携程 · 上海市
    AI 估算 · 28k-45k
  • Sr. Assoc, BackEnd Eng, WRB Tech

    渣打银行 · 天津市
    AI 估算 · 25k-40k
  • Director, Go-to-Market

    西门子 · China
    AI 估算 · 40k-70k
  • C++ 开发工程师

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • C++开发实习生

    小马智行 · 广州市
    AI 估算 · 4k-6k