百度的大模型推理引擎研发工程师（J100363）薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

大模型推理引擎研发工程师（J100363）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

百度的大模型推理引擎研发工程师（J100363）有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

百度

大模型推理引擎研发工程师（J100363）

立即应聘

大模型推理引擎研发工程师（J100363）

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

Kv Cache

Pagedattention

分布式存储

推理引擎

模型量化

CUDA

SGLang

vLLM

AI 估算 · 35k–60k

大模型推理引擎为前沿技术方向，技能稀缺性强，百度薪酬体系在行业中上，高级工程师月薪约35k-60k。

职位详情

关于这个职位

这是一个专注于大模型推理引擎核心研发的技术岗位，负责KV Cache系统架构、分布式存储优化和高性能缓存方案，需要深入理解PagedAttention、vLLM等前沿技术，解决显存和带宽瓶颈问题，适合对底层系统有浓厚兴趣的资深工程师

最低要求

~3年及以上系统研发经验

精通内存管理、缓存淘汰算法或分布式存储系统（如Redis、Ceph、RocksDB等）

熟悉至少一种主流AI推理框架底层源码，理解PagedAttention、Continuous Batching、CUDA Graph等核心技术

精通C++/Python，具备并行计算基础

了解KV Cache量化技术（FP8、INT4等）

工作职责

KV Cache系统架构研发：设计并开发KV Cache管理器（如PagedAttention、RadixCache机制），优化显存利用率

分布式存储优化：设计跨节点、多层级（HBM-Mem-SSD）的KV Cache卸载与交换系统

高性能需求支撑：为RAG、长文本对话、多轮会话提供高性能缓存复用与预取方案

前沿技术跟踪：深度参与并优化SGLang、vLLM、TensorRT-LLM、LightLLM等推理框架，落地最新科研成果

性能瓶颈分析：解决显存碎片、数据污染、带宽瓶颈及精度下降等问题

优先资格

有vLLM、SGLang、FlashInfer等开源社区贡献记录（Contribute/PR）

熟悉Linux内核内存管理或CUDA编程

熟悉存储领域（KV Cache卸载与交换）

AI 洞察

优缺点分析

优点

处于AI最热门的大模型赛道，技术前沿，个人成长空间极大
百度平台资源丰富，能接触到海量用户场景和顶尖技术团队
工作内容兼具底层系统与算法优化，技术深度高，不易被替代
技术壁垒高，需要同时掌握存储、并行计算、CUDA等多领域知识，学习曲线陡峭
开源社区迭代快速，需要持续跟踪最新论文和框架，保持技术敏感度

缺点 / 挑战

大模型推理场景对延迟和吞吐要求极高，工作可能面临较大压力
适合对底层系统有浓厚兴趣、喜欢挑战性能极致、希望在AI基础设施领域深耕的资深工程师

角色解读

成为大模型推理引擎领域的专家，主导核心组件的架构演进
可向AI系统架构师方向发展，负责更大规模的训练/推理集群设计
或转向开源社区贡献，成为vLLM、SGLang等项目的核心维护者
设计并优化KV Cache管理器，提升显存利用率和推理吞吐量
开发跨节点、多层级存储系统，实现KV Cache的高效卸载与交换
针对RAG、长文本对话等场景，研发高性能缓存复用与预取方案
跟踪并落地SGLang、vLLM等社区最新技术，解决显存碎片、带宽瓶颈等硬核问题
精通C++/Python，深入理解内存管理、缓存淘汰算法
熟悉PagedAttention、Continuous Batching、CUDA Graph等推理核心技术
掌握分布式存储原理，有Redis、Ceph或RocksDB等系统经验
了解KV Cache量化技术（FP8、INT4）及精度平衡

申请策略

提前了解百度飞桨（PaddlePaddle）生态系统，思考推理引擎如何与之结合
在面试中展示对性能瓶颈分析的系统性思路，例如如何排查显存碎片
突出系统研发经验，尤其是内存管理、缓存算法或分布式存储项目
展示对推理框架的深入理解，如vLLM源码分析、优化PR或性能对比
强调C++/Python编程能力，附上GitHub链接或技术博客
如果有量化或CUDA优化经验，务必详细描述
深入学习PagedAttention、Paged KV等论文并复现实验
动手阅读vLLM、SGLang源码，尝试提交小型PR或修复bug

面试指南

对于原理性问题，采用“背景-核心机制-优缺点-改进”结构
对于设计问题，先明确目标和约束（延迟、吞吐、成本），再给出分层方案
对于经验问题，使用STAR法则（情境、任务、行动、结果）
请解释PagedAttention的原理及其在显存优化中的作用
如何设计KV Cache的卸载策略，在HBM和SSD之间做权衡？
你如何优化一个推理框架的Continuous Batching调度？
描述你解决过的内存碎片或带宽瓶颈问题，用了哪些方法？
复习大模型推理经典论文：PagedAttention、FlashAttention、vLLM论文

职位点评

综合评分

百度核心大模型推理研发，前沿技术栈、高成长性，但工作强度大、WLB一般。

更适合这类人

最适合追求技术成长和前沿探索的工程师，愿意为职业发展投入高强度工作，对工作生活平衡要求不高的人群。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展95

工作生活40

使命价值65

薪资福利

70中等

百度作为头部互联网公司，薪资福利有竞争力，但具体薪资未明确，且高管级待遇需面议，补偿性动机满足度中等偏上。

薪资信号未披露（AI估算：35K-60K/月）

成长发展

95较高

该岗位处于大模型核心研发位置，技术前沿性极强，参与社区最新框架落地，成长空间巨大，发展性动机满足度极高。

技术前沿前沿/新兴技术

技术栈KV Cache、PagedAttention、vLLM、SGLang、CUDA、分布式存储、量化

业务类型ambiguous

工作生活

40较低

工作地点在北京百度总部，现场办公为主，没有明确WLB信号，大模型研发强度较高，生活化动机满足度较低。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

65中等

大模型技术推动AI发展，有一定社会价值，但岗位描述偏技术实现，未强调使命感，意义感动机满足度中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

百度的其他在招职位

相似职位推荐

Watch Jobs

大模型推理引擎研发工程师（J100363）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

研发工程师实习生（J103237）

Agent产品实习生（J103190）

日语AI广告设计实习生（J102320）

商务运营实习生（J103189）

战略规划实习生（J103177）

微信小游戏-大模型推荐算法工程师-商业化方向

腾讯云-可观测与运维平台高级研发工程师（深圳/杭州/北京/上海）

企业智能体-高级全栈研发工程师

大模型业务应用负责人

直播 Android 业务架构师（POC）

百度的其他在招职位

研发工程师实习生（J103237）

Agent产品实习生（J103190）

日语AI广告设计实习生（J102320）

商务运营实习生（J103189）

战略规划实习生（J103177）

相似职位推荐

微信小游戏-大模型推荐算法工程师-商业化方向

腾讯云-可观测与运维平台高级研发工程师（深圳/杭州/北京/上海）

企业智能体-高级全栈研发工程师

大模型业务应用负责人

直播 Android 业务架构师（POC）

大模型推理引擎研发工程师（J100363）

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

百度 的其他在招职位

研发工程师实习生（J103237）

Agent产品实习生（J103190）

日语AI广告设计实习生（J102320）

商务运营实习生（J103189）

战略规划实习生（J103177）

相似职位推荐

微信小游戏-大模型推荐算法工程师-商业化方向

腾讯云-可观测与运维平台高级研发工程师（深圳/杭州/北京/上海）

企业智能体-高级全栈研发工程师

大模型业务应用负责人

直播 Android 业务架构师（POC）

百度的其他在招职位