Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Xiaohongshu logo
小红书
GPU调度研发工程师/专家
立即应聘

GPU调度研发工程师/专家

发布于 1 天前

普通员工/个人贡献者

北京市 / 上海市
高级经验
全职员工
仅现场办公
学历未注明
PyTorch
LLMOps
GPU虚拟化
云原生
大模型
GPU调度

AI 估算 · 30k–55k

小红书为大型互联网公司,GPU调度岗位技术稀缺,薪资竞争力强,结合地域水平估算。

职位详情

关于这个职位

该职位负责小红书万卡级GPU集群的效能分析与优化,通过调度策略、GPU虚拟化、故障恢复等手段提升集群效率

同时构建面向大模型训练推理全流程的LLMOps平台,与云原生深度融合
适合对云原生、大模型基础设施有浓厚兴趣的技术专家

最低要求

熟悉云原生生态及工具,如Kubernetes、Kubeflow、Volcano等,有GPU虚拟化、GPU集群调度、故障容错、高速存储/网络等经验优先

了解大模型基本概念及训推生命周期,如预训练、微调、对齐、推理、部署等基本概念及流程,能够支撑大模型平台构建&优化即可
熟悉大规模GPU训练、推理集群的调优技术,能结合平台调度、网络拓扑优化等提升集群训练推理效率
熟练掌握 Python、Golang、C++ 或其他编程语言中的一门或多门,熟悉至少一种深度学习框架,如PyTorch、TensorFlow、PaddlePaddle等
具备优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分

工作职责

负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率

负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地
持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统

优先资格

有大模型场景下负载特征分析、GPU集群调度&性能优化、高性能网络/存储等实践经验或者相关研究成果优先

有GPU虚拟化落地、在线/离线场景混合部署经验优先
有大规模GPU集群上预训练、推理等场景端到端优化经验优先

AI 洞察

优缺点分析

优点

  • 接触前沿技术(大模型、GPU集群、云原生),个人技能积累快,市场竞争力强
  • 小红书业务场景丰富,平台大,技术影响力广泛
  • 团队处于快速发展期,有机会参与下一代系统设计,成就感强
  • 技术栈复杂,需要持续学习并跟进最新动态
  • 项目可能面临较紧的时间线,工作强度较大
  • 适合对大规模分布式系统和AI基础设施有浓厚兴趣,具备较强编程和系统设计能力的求职者

缺点 / 挑战

  • 大规模集群故障排查和性能优化极具挑战性,需要较强的分析和问题解决能力

角色解读

  • 成为GPU调度和AI基础设施领域的专家,晋升为技术专家或架构师
  • 向AI平台架构、云原生技术负责人方向发展,覆盖更大的基础设施系统
  • 随着大模型爆发,该领域人才稀缺,职业前景广阔,可跨团队或公司发展
  • 负责万卡级GPU集群的效能分析,通过调度策略优化、GPU虚拟化、故障恢复等手段提升整体使用效率
  • 构建面向大模型训练、微调、推理全流程的LLMOps平台,并与云原生平台(Kubernetes等)深度集成
  • 持续追踪GPU资源调度前沿技术,探索下一代大规模AI调度系统
  • 熟悉云原生生态(Kubernetes、Kubeflow、Volcano),有GPU集群调度和虚拟化经验
  • 了解大模型训推生命周期,掌握至少一种深度学习框架(如PyTorch)
  • 熟练掌握Python、Golang、C++等编程语言,具备良好的逻辑抽象能力

申请策略

  • 研究小红书技术博客和开源项目,了解其基础设施技术栈
  • 在简历中体现对大规模系统优化和故障处理的热情,以及具体的量化成果
  • 突出GPU集群调度、虚拟化或高性能计算相关项目,尤其是大规模集群优化经验
  • 强调对云原生(Kubernetes)的使用和自定义调度器开发经历
  • 展示大模型训练或推理平台的建设经验,包括端到端流程
  • 体现编程语言(Python、Go、C++)和深度学习框架(PyTorch)的熟练度
  • 深入学习Kubernetes调度原理,包括自定义调度器和资源绑定
  • 了解GPU虚拟化技术(如vGPU、MIG)和主流大模型训练框架(Megatron、DeepSpeed)

面试指南

  • 结构化回答:先给出核心思路,再分点阐述技术细节,如调度策略、资源管理、容错等
  • 结合项目经验:用自己的实际案例说明,突出遇到的问题和解决方案
  • 展现思考过程:对不确定的问题,分析可能方案和权衡,体现系统思维
  • 如何设计一个GPU集群调度系统?需要考虑哪些关键因素?
  • Kubernetes调度器如何工作?如何实现GPU资源的分配与隔离?
  • 如何优化大模型训练时的网络通信(如使用RDMA)?
  • 描述一次你处理过的集群故障或性能瓶颈的经验
  • 谈谈你对GPU虚拟化技术(如MIG、vGPU)的理解和应用

匹配度报告

69
综合匹配度

大厂热门技术岗,前沿AI基础设施,薪资优厚但WLB一般。

适合人群
适合看重技术成长和行业前景的求职者,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展85
工作生活45
使命价值80

薪资福利匹配

65中等

薪资面议但经验表明互联网大厂该岗位薪资有竞争力,福利未明确提及。

薪资信号未披露(AI估算:30K-55K/月)

成长发展匹配

85较高

技术栈前沿(大模型、云原生),成长空间大,但JD未明确晋升路径。

技术前沿前沿/新兴技术
技术栈GPU调度、Kubernetes、云原生、大模型、PyTorch、GPU虚拟化、LLMOps
业务类型cost_center

工作生活匹配

45较低

未提及远程或弹性办公,典型互联网公司现场办公,加班情况未明确但行业普遍。

工作模式未明确
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

80较高

大模型是高速增长赛道,公司为行业头部,技术革新快,社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • 多模态基础模型算法工程师/研究员

    小红书 · 北京市
    AI 估算 · 50k-80k
  • 营销实验室实习生

    小红书 · 上海市
    AI 估算 · 3k-4k
  • 企业文化实习生(活动运营方向)

    小红书 · 武汉市
    AI 估算 · 3k-5k
  • 社区内容运营(户外运动方向)

    小红书 · 北京市
    AI 估算 · 4k-6k
  • 运营体验设计实习生

    小红书 · 上海市
    AI 估算 · 3k-5k

相似职位推荐

  • Solution Architect Mechanics & Release Management

    大众汽车 · 合肥市
    AI 估算 · 20k-35k
  • JAVA后端开发工程师(语音)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • 北京-数据中台研发工程师(J86157)

    百度 · 北京市
    AI 估算 · 20k-35k
  • 中级嵌入式软件开发工程师

    科大讯飞 · 合肥市
    AI 估算 · 15k-25k
  • 智能驾驶-建图定位负责人

    科大讯飞 · 合肥市
    AI 估算 · 35k-60k

小红书 的其他在招职位

  • 多模态基础模型算法工程师/研究员

    小红书 · 北京市
    AI 估算 · 50k-80k
  • 营销实验室实习生

    小红书 · 上海市
    AI 估算 · 3k-4k
  • 企业文化实习生(活动运营方向)

    小红书 · 武汉市
    AI 估算 · 3k-5k
  • 社区内容运营(户外运动方向)

    小红书 · 北京市
    AI 估算 · 4k-6k
  • 运营体验设计实习生

    小红书 · 上海市
    AI 估算 · 3k-5k

相似职位推荐

  • Solution Architect Mechanics & Release Management

    大众汽车 · 合肥市
    AI 估算 · 20k-35k
  • JAVA后端开发工程师(语音)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • 北京-数据中台研发工程师(J86157)

    百度 · 北京市
    AI 估算 · 20k-35k
  • 中级嵌入式软件开发工程师

    科大讯飞 · 合肥市
    AI 估算 · 15k-25k
  • 智能驾驶-建图定位负责人

    科大讯飞 · 合肥市
    AI 估算 · 35k-60k