Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Xiaohongshu logo
小红书
【REDstar】大模型 Efficient Inference Infra 工程师
立即应聘

【REDstar】大模型 Efficient Inference Infra 工程师

发布于 大约 14 小时前

普通员工/个人贡献者

北京市 / 上海市
中级经验
全职员工
仅现场办公
本科
PyTorch
CUDA
RDMA
模型压缩
NCCL
模型量化
TensorRT
ONNX
SGLang
vLLM

AI 估算 · 30k–60k

大模型推理infra工程师技能稀缺,小红书业务规模大,薪资具有竞争力,参考一线互联网大厂同级别薪资水平。

职位详情

关于这个职位

这是一个专注于大模型推理基础设施的工程师岗位,你将参与高性能推理框架、模型压缩和分布式推理系统的研发,面对千卡级训练、高并发推理等大规模AI Infra挑战

适合具备扎实编程功底和深度学习框架经验的同学,在这里可以深耕推理方向或参与全链路系统设计,成长为理解大模型全栈的AI Infra工程师

最低要求

具备扎实的代码能力、数据结构和基础算法功底,熟悉 Rust / C++ / Python 中至少一门语言,具备良好的工程实现能力和代码质量意识

熟悉大模型推理、模型压缩、深度学习框架中的至少一个方向,并具备源码阅读、修改、性能优化或工程落地经验
熟悉至少一种主流推理或深度学习框架,如 vLLM、SGLang、TensorRT-LLM、Nvidia Dynamo、AIBrix、PyTorch、ONNX、TensorRT 等
理解大模型推理核心链路,对 KV Cache 管理、PagedAttention、Chunked Prefill、Continuous Batching、PD 分离、请求调度、推理服务稳定性等技术有经验或深入认知
理解模型压缩常用方法,对量化、蒸馏、剪枝、投机解码、KV Cache 压缩、CoT 压缩等技术有经验或深入认知
能围绕延迟、吞吐、并发、显存、通信、精度、成本、业务效果等指标进行系统分析,在推理性能、压缩效果和业务收益之间做合理权衡
具备较强的问题定位和系统优化能力,能够借助 Profiling、日志、监控和实验分析等手段定位复杂系统瓶颈,并推动问题闭环
具备良好的学习能力、沟通协作能力和自驱力,能与算法、MaaS、平台、业务团队协同推进技术落地

工作职责

推理框架研发: 参与 rLLM 推理框架研发,支撑 LLM、MLLM、DiT 等模型的高性能在线推理

分布式推理能力建设: 参与 KV Router、PD 分离 / EPD 分离、KV Cache 管理、Prefix Cache 复用、动态请求调度等核心能力建设
推理性能优化: 围绕 TTFT、TPOT、吞吐、并发能力、GPU 利用率等指标,持续优化推理框架性能和资源效率
模型压缩算法落地: 探索并落地大语言模型和多模态模型的低比特量化、蒸馏、剪枝、投机解码、KV Cache 压缩、CoT 压缩等技术,在保证业务效果的前提下降低推理成本
压缩评估与部署闭环: 建设模型压缩评估与部署闭环,平衡精度、延迟、吞吐、显存、成本与业务效果,将压缩算法转化为稳定、可复用、可规模化的生产能力
系统可靠性建设: 构建推理框架的系统容错能力,包括请求迁移、优雅退出、故障检测、自愈恢复、灰度发布等能力
异构芯片推理适配: 负责推理引擎在国产异构计算芯片(昇腾 / PPU 等)上的适配与深度优化,完成模型迁移、算子开发、Profiling、Kernel 调优、并行策略与服务架构调优,推动国产算力在推理场景的规模化使用
多模型与多硬件适配: 支撑 LLM、MLLM、Embedding、Rerank、DiT 等多类型模型在 Nvidia GPU、国产 NPU / PPU 等多种硬件上的推理、压缩和部署落地
业务协同: 与算法、MaaS、平台和业务团队深度协作,为重点业务进行算法与系统联合优化,支撑业务推理成本下降和性能提升

优先资格

参与过 vLLM、SGLang、TensorRT-LLM、Nvidia Dynamo、AIBrix 等主流推理框架的代码贡献或核心模块开发

熟悉 CUDA Kernel、Attention / GEMM 算子优化、FlashAttention、PagedAttention 等底层优化技术
熟悉 NCCL、RDMA、IB、RoCE 等高性能通信机制,有多机多卡推理优化经验
有 SmoothQuant、AWQ、GPTQ、KV Cache 压缩、投机解码等算法的工程落地经验
有大规模线上推理服务稳定性建设经验,解决过高并发、故障迁移、弹性扩缩容、SLO 保障等生产问题
熟悉多模态模型或 DiT 类模型推理链路,有相关部署、压缩和优化经验优先
有国产异构芯片(昇腾 Ascend、平头哥 PPU)推理适配或 Kernel 开发经验,熟悉 CANN / ROCm 等基础软件栈,有大模型在国产芯片上生产级替换或规模化部署经验者优先
深入理解 GPU / NPU 硬件架构及性能瓶颈(Tensor Core、内存层级、计算单元、通信拓扑),能结合硬件特性设计差异化推理或压缩优化方案
有推理或压缩方向论文发表经历,或优秀开源项目贡献经历

AI 洞察

优缺点分析

优点

  • 团队技术氛围浓厚,有完善的工具链和开源项目,能快速积累前沿技术经验
  • 职位涉及推理框架、模型压缩、异构芯片等多个热门方向,职业发展空间广阔
  • 技术栈更新快,要求持续学习,保持对前沿技术的跟进
  • 适合对AI Infra有浓厚兴趣、具备扎实系统编程能力、愿意深入底层优化的技术型人才

缺点 / 挑战

  • 小红书大模型业务发展迅速,可以接触到真实的大规模AI Infra挑战
  • 工作强度可能较高,需要面对千卡级训练和高并发推理等复杂问题

角色解读

  • 深耕推理框架或模型压缩方向,成为领域专家,解决业界难题
  • 参与跨方向系统设计,成长为理解大模型全链路的AI Infra架构师
  • 通过开源贡献和技术分享,提升行业影响力,向技术Leader发展
  • 参与rLLM推理框架研发,优化LLM、MLLM等模型的高性能在线推理
  • 建设分布式推理核心能力,如KV Cache管理、PD分离、动态请求调度等
  • 探索并落地低比特量化、蒸馏、剪枝等模型压缩技术,降低推理成本
  • 负责推理引擎在国产异构芯片上的适配与优化,推动国产算力规模化
  • 扎实的编程能力,熟悉Rust/C++/Python,具备良好工程素养
  • 深入理解大模型推理链路,如KV Cache、PagedAttention、Continuous Batching等
  • 熟悉主流推理框架(vLLM、SGLang、TensorRT-LLM)并有源码修改或优化经验
  • 具备系统性能分析能力,能围绕延迟、吞吐、显存等指标进行优化

申请策略

  • 在简历中体现对推理系统性能指标的量化成果(如延迟降低xx%,吞吐提升xx%)
  • 关注小红书的技术博客和开源项目,在面试中展现对团队工作的了解
  • 突出在vLLM、SGLang等推理框架上的开发或优化经历,展示代码贡献或工程落地成果
  • 强调模型压缩(量化、蒸馏)或性能优化(CUDA、FlashAttention)的实际经验
  • 如果有大规模分布式系统或异构芯片适配经验,务必重点描述
  • 展示开源项目参与或技术博客,体现技术热情和影响力
  • 深入阅读vLLM或TensorRT-LLM源码,理解其核心设计
  • 学习CUDA编程和GPU架构,尝试做一些算子优化练习

面试指南

  • 回答技术问题时,先阐述原理,然后结合自己的项目经验给出具体例子
  • 性能优化问题可采用“分析瓶颈→提出方案→量化效果”的结构
  • 开放性设计问题,先明确约束条件,再提出方案并讨论权衡
  • 请解释PagedAttention的原理及其在vLLM中的实现?
  • 如何优化大模型推理的TTFT和TPOT?你有哪些实际经验?
  • 描述你对模型量化的理解,SmoothQuant和AWQ有什么区别?
  • 在设计分布式推理系统时,如何平衡延迟和吞吐?
  • 你在国产芯片(如昇腾)上进行推理适配时遇到了哪些挑战?

匹配度报告

72
综合匹配度

前沿技术栈、高成长性,但工作强度可能较大,适合技术驱动的候选人。

适合人群
最适合追求技术成长、希望在大模型Infra前沿领域深耕的求职者,如果看重工作生活平衡则需慎重。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展95
工作生活50
使命价值70

薪资福利匹配

75中等

大模型Infra工程师薪资水平较高,小红书作为快速增长的互联网公司,薪资福利有竞争力,但JD未明确具体福利内容。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

95较高

该职位技术栈前沿,涉及当前最热门的大模型推理和压缩技术,团队有开源项目,成长空间巨大。

技术前沿前沿/新兴技术
技术栈vLLM、SGLang、TensorRT-LLM、Nvidia Dynamo、AIBrix、PyTorch、ONNX、TensorRT、CUDA、FlashAttention、PagedAttention、NCCL、RDMA、SmoothQuant、AWQ、GPTQ、KV Cache、PD分离、模型量化、模型压缩
成长机会开源、行业技术交流
业务类型profit_center

工作生活匹配

50较低

工作地点在北京/上海核心地段,但JD未明确办公模式或WLB信息,互联网公司高强度工作可能性较大。

工作模式未明确
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI大模型是高速增长赛道,技术影响力大,但JD未突出社会使命,主要强调技术价值。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • 机审策略(AI方向)实习

    小红书 · 北京市
    AI 估算 · 5k-7k
  • 创新产品内容运营实习生 — 增长方向

    小红书 · 上海市
    AI 估算 · 3k-5k
  • 足球话题运营

    小红书 · 上海市
    AI 估算 · 15k-25k
  • 国际化PE实习生后端

    小红书 · 深圳市
    AI 估算 · 5k-7k
  • 组织文化内容运营实习生

    小红书 · 上海市
    AI 估算 · 3k-5k

相似职位推荐

  • 大模型评测算法工程师-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 大模型评测算法工程师-AI数据与安全

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 智能系统评估研究科学家-Commercial AI

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 视觉感知算法工程师-PICO

    字节跳动 · 北京市
    AI 估算 · 30k-45k
  • 番茄模型运维(模型开发方向)运营-CQC

    字节跳动 · 北京市
    AI 估算 · 30k-50k

小红书 的其他在招职位

  • 机审策略(AI方向)实习

    小红书 · 北京市
    AI 估算 · 5k-7k
  • 创新产品内容运营实习生 — 增长方向

    小红书 · 上海市
    AI 估算 · 3k-5k
  • 足球话题运营

    小红书 · 上海市
    AI 估算 · 15k-25k
  • 国际化PE实习生后端

    小红书 · 深圳市
    AI 估算 · 5k-7k
  • 组织文化内容运营实习生

    小红书 · 上海市
    AI 估算 · 3k-5k

相似职位推荐

  • 大模型评测算法工程师-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 大模型评测算法工程师-AI数据与安全

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 智能系统评估研究科学家-Commercial AI

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 视觉感知算法工程师-PICO

    字节跳动 · 北京市
    AI 估算 · 30k-45k
  • 番茄模型运维(模型开发方向)运营-CQC

    字节跳动 · 北京市
    AI 估算 · 30k-50k