小红书的【REDstar】大模型 Efficient Inference Infra 工程师薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

【REDstar】大模型 Efficient Inference Infra 工程师的工作地点在哪里？

该职位工作地点位于北京市、上海市。工作形式为仅现场办公。

小红书的【REDstar】大模型 Efficient Inference Infra 工程师有什么任职要求？

该职位要求本科学历及中级经验工作经验。

小红书

【REDstar】大模型 Efficient Inference Infra 工程师

立即应聘

【REDstar】大模型 Efficient Inference Infra 工程师

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 上海市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Awq

Flashattention

Gptq

Kv Cache

Pagedattention

Pd分离

Smoothquant

模型压缩

模型量化

AI 估算 · 30k–60k

大模型推理infra工程师技能稀缺，小红书业务规模大，薪资具有竞争力，参考一线互联网大厂同级别薪资水平。

职位详情

关于这个职位

这是一个专注于大模型推理基础设施的工程师岗位，你将参与高性能推理框架、模型压缩和分布式推理系统的研发，面对千卡级训练、高并发推理等大规模AI Infra挑战

适合具备扎实编程功底和深度学习框架经验的同学，在这里可以深耕推理方向或参与全链路系统设计，成长为理解大模型全栈的AI Infra工程师

最低要求

具备扎实的代码能力、数据结构和基础算法功底，熟悉 Rust / C++ / Python 中至少一门语言，具备良好的工程实现能力和代码质量意识

熟悉大模型推理、模型压缩、深度学习框架中的至少一个方向，并具备源码阅读、修改、性能优化或工程落地经验

熟悉至少一种主流推理或深度学习框架，如 vLLM、SGLang、TensorRT-LLM、Nvidia Dynamo、AIBrix、PyTorch、ONNX、TensorRT 等

理解大模型推理核心链路，对 KV Cache 管理、PagedAttention、Chunked Prefill、Continuous Batching、PD 分离、请求调度、推理服务稳定性等技术有经验或深入认知

理解模型压缩常用方法，对量化、蒸馏、剪枝、投机解码、KV Cache 压缩、CoT 压缩等技术有经验或深入认知

能围绕延迟、吞吐、并发、显存、通信、精度、成本、业务效果等指标进行系统分析，在推理性能、压缩效果和业务收益之间做合理权衡

具备较强的问题定位和系统优化能力，能够借助 Profiling、日志、监控和实验分析等手段定位复杂系统瓶颈，并推动问题闭环

具备良好的学习能力、沟通协作能力和自驱力，能与算法、MaaS、平台、业务团队协同推进技术落地

工作职责

推理框架研发：参与 rLLM 推理框架研发，支撑 LLM、MLLM、DiT 等模型的高性能在线推理

分布式推理能力建设：参与 KV Router、PD 分离 / EPD 分离、KV Cache 管理、Prefix Cache 复用、动态请求调度等核心能力建设

推理性能优化：围绕 TTFT、TPOT、吞吐、并发能力、GPU 利用率等指标，持续优化推理框架性能和资源效率

模型压缩算法落地：探索并落地大语言模型和多模态模型的低比特量化、蒸馏、剪枝、投机解码、KV Cache 压缩、CoT 压缩等技术，在保证业务效果的前提下降低推理成本

压缩评估与部署闭环：建设模型压缩评估与部署闭环，平衡精度、延迟、吞吐、显存、成本与业务效果，将压缩算法转化为稳定、可复用、可规模化的生产能力

系统可靠性建设：构建推理框架的系统容错能力，包括请求迁移、优雅退出、故障检测、自愈恢复、灰度发布等能力

异构芯片推理适配：负责推理引擎在国产异构计算芯片（昇腾 / PPU 等）上的适配与深度优化，完成模型迁移、算子开发、Profiling、Kernel 调优、并行策略与服务架构调优，推动国产算力在推理场景的规模化使用

多模型与多硬件适配：支撑 LLM、MLLM、Embedding、Rerank、DiT 等多类型模型在 Nvidia GPU、国产 NPU / PPU 等多种硬件上的推理、压缩和部署落地

业务协同：与算法、MaaS、平台和业务团队深度协作，为重点业务进行算法与系统联合优化，支撑业务推理成本下降和性能提升

优先资格

参与过 vLLM、SGLang、TensorRT-LLM、Nvidia Dynamo、AIBrix 等主流推理框架的代码贡献或核心模块开发

熟悉 CUDA Kernel、Attention / GEMM 算子优化、FlashAttention、PagedAttention 等底层优化技术

熟悉 NCCL、RDMA、IB、RoCE 等高性能通信机制，有多机多卡推理优化经验

有 SmoothQuant、AWQ、GPTQ、KV Cache 压缩、投机解码等算法的工程落地经验

有大规模线上推理服务稳定性建设经验，解决过高并发、故障迁移、弹性扩缩容、SLO 保障等生产问题

熟悉多模态模型或 DiT 类模型推理链路，有相关部署、压缩和优化经验优先

有国产异构芯片（昇腾 Ascend、平头哥 PPU）推理适配或 Kernel 开发经验，熟悉 CANN / ROCm 等基础软件栈，有大模型在国产芯片上生产级替换或规模化部署经验者优先

深入理解 GPU / NPU 硬件架构及性能瓶颈（Tensor Core、内存层级、计算单元、通信拓扑），能结合硬件特性设计差异化推理或压缩优化方案

有推理或压缩方向论文发表经历，或优秀开源项目贡献经历

AI 洞察

优缺点分析

优点

团队技术氛围浓厚，有完善的工具链和开源项目，能快速积累前沿技术经验
职位涉及推理框架、模型压缩、异构芯片等多个热门方向，职业发展空间广阔
技术栈更新快，要求持续学习，保持对前沿技术的跟进
适合对AI Infra有浓厚兴趣、具备扎实系统编程能力、愿意深入底层优化的技术型人才

缺点 / 挑战

小红书大模型业务发展迅速，可以接触到真实的大规模AI Infra挑战
工作强度可能较高，需要面对千卡级训练和高并发推理等复杂问题

角色解读

深耕推理框架或模型压缩方向，成为领域专家，解决业界难题
参与跨方向系统设计，成长为理解大模型全链路的AI Infra架构师
通过开源贡献和技术分享，提升行业影响力，向技术Leader发展
参与rLLM推理框架研发，优化LLM、MLLM等模型的高性能在线推理
建设分布式推理核心能力，如KV Cache管理、PD分离、动态请求调度等
探索并落地低比特量化、蒸馏、剪枝等模型压缩技术，降低推理成本
负责推理引擎在国产异构芯片上的适配与优化，推动国产算力规模化
扎实的编程能力，熟悉Rust/C++/Python，具备良好工程素养
深入理解大模型推理链路，如KV Cache、PagedAttention、Continuous Batching等
熟悉主流推理框架（vLLM、SGLang、TensorRT-LLM）并有源码修改或优化经验
具备系统性能分析能力，能围绕延迟、吞吐、显存等指标进行优化

申请策略

在简历中体现对推理系统性能指标的量化成果（如延迟降低xx%，吞吐提升xx%）
关注小红书的技术博客和开源项目，在面试中展现对团队工作的了解
突出在vLLM、SGLang等推理框架上的开发或优化经历，展示代码贡献或工程落地成果
强调模型压缩（量化、蒸馏）或性能优化（CUDA、FlashAttention）的实际经验
如果有大规模分布式系统或异构芯片适配经验，务必重点描述
展示开源项目参与或技术博客，体现技术热情和影响力
深入阅读vLLM或TensorRT-LLM源码，理解其核心设计
学习CUDA编程和GPU架构，尝试做一些算子优化练习

面试指南

回答技术问题时，先阐述原理，然后结合自己的项目经验给出具体例子
性能优化问题可采用“分析瓶颈→提出方案→量化效果”的结构
开放性设计问题，先明确约束条件，再提出方案并讨论权衡
请解释PagedAttention的原理及其在vLLM中的实现？
如何优化大模型推理的TTFT和TPOT？你有哪些实际经验？
描述你对模型量化的理解，SmoothQuant和AWQ有什么区别？
在设计分布式推理系统时，如何平衡延迟和吞吐？
你在国产芯片（如昇腾）上进行推理适配时遇到了哪些挑战？

职位点评

综合评分

前沿技术栈、高成长性，但工作强度可能较大，适合技术驱动的候选人。

更适合这类人

最适合追求技术成长、希望在大模型Infra前沿领域深耕的求职者，如果看重工作生活平衡则需慎重。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活50

使命价值70

薪资福利

75中等

大模型Infra工程师薪资水平较高，小红书作为快速增长的互联网公司，薪资福利有竞争力，但JD未明确具体福利内容。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

95较高

该职位技术栈前沿，涉及当前最热门的大模型推理和压缩技术，团队有开源项目，成长空间巨大。

技术前沿前沿/新兴技术

技术栈vLLM、SGLang、TensorRT-LLM、Nvidia Dynamo、AIBrix、PyTorch、ONNX、TensorRT、CUDA、FlashAttention、PagedAttention、NCCL、RDMA、SmoothQuant、AWQ、GPTQ、KV Cache、PD分离、模型量化、模型压缩

成长机会开源、行业技术交流

业务类型profit_center

工作生活

50较低

工作地点在北京/上海核心地段，但JD未明确办公模式或WLB信息，互联网公司高强度工作可能性较大。

工作模式未明确

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

AI大模型是高速增长赛道，技术影响力大，但JD未突出社会使命，主要强调技术价值。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

小红书的其他在招职位

相似职位推荐

Watch Jobs

【REDstar】大模型 Efficient Inference Infra 工程师

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

【练习生】AI 数据工程师 - 商业化方向

AI视觉设计师（发布创意方向）

国际化高招实习生

海外增长实习生

AI Coding大模型/算法实习

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

小红书的其他在招职位

【练习生】AI 数据工程师 - 商业化方向

AI视觉设计师（发布创意方向）

国际化高招实习生

海外增长实习生

AI Coding大模型/算法实习

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

【REDstar】大模型 Efficient Inference Infra 工程师

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

小红书 的其他在招职位

【练习生】AI 数据工程师 - 商业化方向

AI视觉设计师（发布创意方向）

国际化高招实习生

海外增长实习生

AI Coding大模型/算法实习

相似职位推荐

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

小红书的其他在招职位