Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Xiaohongshu logo
小红书
大模型MaaS推理资源调度系统工程师/专家
立即应聘

大模型MaaS推理资源调度系统工程师/专家

发布于 大约 18 小时前

普通员工/个人贡献者

北京市 / 上海市
高级经验
全职员工
仅现场办公
学历未注明
信息技术与基础设施
分布式系统
GPU集群
SGLang
vLLM
大模型推理
Maas
异构算力
弹性调度
在线离线混部

AI 估算 · 40k–65k

小红书一线大厂,大模型推理调度方向热门,高级工程师薪资具有竞争力,结合市场行情估算。

职位详情

关于这个职位

作为小红书大模型MaaS推理资源调度系统工程师,你将负责建设面向万亿级Token/日、万卡级异构GPU集群的推理调度系统,优化在线与离线负载混部、弹性伸缩和异构算力调度,在保障SLA的同时提升资源利用率、降低推理成本

这是一个技术挑战大、行业前景广阔的核心岗位,适合对分布式系统、云原生和AI基础设施有热情的技术专家

最低要求

有分布式系统、云原生、资源调度或高性能服务治理经验

熟悉 Kubernetes 调度体系、弹性伸缩、服务发现、流量治理等技术
理解大模型推理链路,熟悉 GPU、显存、KV Cache、batching、Token 吞吐、TTFT/TPOT 等概念
有 GPU 集群、MaaS 平台、模型服务平台或推理系统经验优先
具备强指标意识,能够围绕 SLA、GPU 利用率/SMA、吞吐、延迟和成本持续优化系统

工作职责

万亿级 Token/日吞吐优化:围绕 QPS、RPM/TPM、并发、Token 吞吐、TTFT、TPOT延迟等指标,优化推理服务整体吞吐和资源效率

在线推理与离线批推混部:在保障在线推理 SLA 的前提下,将批量推理、模型评测、数据生成、异步任务、低优先级推理等离线/准离线负载调度到闲置 GPU 资源中运行,提升集群整体利用率
弹性调度与成本优化:建设基于流量预测、队列状态、GPU 利用率/SMA、显存、KV Cache、模型热度等指标的弹性伸缩能力,实现容量预热、快速扩缩容、资源回收和成本归因
大规模异构算力调度:面向万卡级异构 GPU 集群,建设跨集群、跨机型、跨芯片架构、跨模型的统一调度系统,解决资源分配、模型副本放置、容量池治理、热点迁移、故障迁移和资源碎片治理问题

优先资格

熟悉 AIBrix、llm-d、vLLM、SGLang、KServe、Ray Serve 等推理框架或服务化体系

有在线离线混部、弹性调度、算力资源池化、异构算力调度相关经验
有大规模 GPU 集群、万亿级 Token 推理服务或商业化 MaaS 平台建设经验
有提升 GPU 利用率、SMA、推理吞吐或降低单位 Token 成本的实际案例
熟悉多租户资源隔离、优先级调度、抢占、配额、成本归因和容量治理

AI 洞察

优缺点分析

优点

  • 小红书业务增长快,资源投入充足,有机会做前沿技术落地
  • 与顶尖团队合作,积累万亿级规模系统的设计经验
  • 薪资福利丰厚,股票期权有吸引力
  • 技术迭代极快,需要持续学习新框架和优化方法
  • 跨城市协作可能带来沟通成本

缺点 / 挑战

  • 身处大模型浪潮核心,技术挑战高,成长空间大
  • 工作强度可能较高,需应对大规模集群稳定性与性能难题
  • 适合有扎实分布式系统背景、对AI基础设施充满热情、愿意挑战高难度技术问题的工程师

角色解读

  • 在技术深度上,可成为分布式调度、AI基础设施领域的专家
  • 在管理路径上,可晋升为技术Leader,带领团队建设更大规模的推理平台
  • 横向可拓展至AI平台架构师、云原生基础设施总监等角色
  • 设计并实现万亿级Token吞吐的MaaS推理调度系统,优化QPS、延迟等关键指标
  • 负责在线推理与离线批处理任务的混部调度,在保障SLA前提下最大化GPU利用率
  • 构建基于流量预测的弹性伸缩机制,实现资源动态扩缩容与成本优化
  • 管理万卡级异构GPU集群的统一调度,解决跨集群资源分配与热点迁移问题
  • 精通分布式系统、云原生技术栈,特别是Kubernetes调度体系
  • 深入理解大模型推理链路,熟悉GPU、显存、KV Cache等底层概念
  • 具备指标驱动意识,能围绕SLA、利用率、吞吐和成本持续优化
  • 有GPU集群或MaaS平台经验者优先,熟悉vLLM、Ray Serve等框架更佳

申请策略

  • 在简历中明确提及对MaaS和推理调度的理解,体现技术热情
  • 准备一个调度系统设计的案例,展示系统思考能力
  • 突出分布式系统、Kubernetes及相关调度系统的项目经验
  • 量化成绩:如提升了多少GPU利用率、降低多少延迟、管理过多少节点
  • 展示对大模型推理的理解,附上相关技术博客或开源贡献
  • 强调指标优化案例,如SLA达成率、成本降低比例
  • 深入学习Kubernetes调度器源码和自定义调度器开发
  • 动手实践vLLM、SGLang等推理框架,了解其调度原理

面试指南

  • 对于设计类问题,采用需求分析-架构设计-关键难点-解决方案的结构
  • 对于优化类问题,明确指标-分析瓶颈-提出方案-验证效果
  • 对于案例类问题,使用STAR法则(情境、任务、行动、结果)
  • 如何设计一个支持在线离线混部的Kubernetes调度器?
  • 解释大模型推理中的TTFT和TPOT,如何优化它们?
  • 当GPU集群出现热点时,如何实现自动迁移?
  • 如何利用弹性伸缩降低推理成本?请给出具体方案
  • 遇到过最复杂的资源碎片问题是什么?如何治理?

职位点评

72
综合评分

小红书核心AI基础设施岗,技术前沿、薪资高、成长快,但工作强度可能较大。

更适合这类人
适合追求技术成长、挑战高薪的求职者,若看重工作生活平衡则需谨慎。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展95
工作生活40
使命价值70

薪资福利

85较高

小红书作为一线大厂,薪资具有竞争力,福利完善,该职位属于核心部门,薪酬待遇较好。

薪资信号未披露(AI估算:40K-65K/月)

成长发展

95较高

该岗位涉及万亿级调度、前沿大模型推理技术,技术栈新,成长空间巨大,且有明确的指标优化要求,驱动深度学习。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU、MaaS、大模型推理、弹性调度、vLLM、SGLang
业务类型profit_center

工作生活

40较低

职位要求现场办公,未提及弹性工作制;大厂核心岗位可能工作强度较高。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

大模型推理调度是AI基础设施的关键环节,有技术推动行业进步的意义,但商业属性强,社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • 【商业产品】交易平台产品运营

    小红书 · 上海市
    AI 估算 · 20k-35k
  • 平台产品经理-基础框架方向

    小红书 · 北京市
    AI 估算 · 35k-55k
  • Android客户端开发实习生

    小红书 · 上海市
    AI 估算 · 4k-6k
  • 「商业产品」开环电商行业产品经理

    小红书 · 北京市
    AI 估算 · 20k-40k
  • HR招聘实习生

    小红书 · 上海市
    AI 估算 · 4k-6k

相似职位推荐

  • AI软件解决方案专家(FDE)(深圳/北京/上海)

    腾讯 · 深圳市
    AI 估算 · 30k-55k
  • AGENTIC AI Testing Lead, Global Delivery Simplification, VP

    道富公司 · 杭州市
    AI 估算 · 50k-80k
  • AGENTIC AI Testing Consultant, Global Delivery Simplification, AVP

    道富公司 · 杭州市
    AI 估算 · 30k-45k
  • 应用架构高级工程师

    顺丰速运 · 深圳市
    AI 估算 · 30k-50k
  • AI运维工程师

    顺丰速运 · 深圳市
    AI 估算 · 25k-40k

小红书 的其他在招职位

  • 【商业产品】交易平台产品运营

    小红书 · 上海市
    AI 估算 · 20k-35k
  • 平台产品经理-基础框架方向

    小红书 · 北京市
    AI 估算 · 35k-55k
  • Android客户端开发实习生

    小红书 · 上海市
    AI 估算 · 4k-6k
  • 「商业产品」开环电商行业产品经理

    小红书 · 北京市
    AI 估算 · 20k-40k
  • HR招聘实习生

    小红书 · 上海市
    AI 估算 · 4k-6k

相似职位推荐

  • AI软件解决方案专家(FDE)(深圳/北京/上海)

    腾讯 · 深圳市
    AI 估算 · 30k-55k
  • AGENTIC AI Testing Lead, Global Delivery Simplification, VP

    道富公司 · 杭州市
    AI 估算 · 50k-80k
  • AGENTIC AI Testing Consultant, Global Delivery Simplification, AVP

    道富公司 · 杭州市
    AI 估算 · 30k-45k
  • 应用架构高级工程师

    顺丰速运 · 深圳市
    AI 估算 · 30k-50k
  • AI运维工程师

    顺丰速运 · 深圳市
    AI 估算 · 25k-40k