
百度
大模型推理引擎研发工程师(J100363)
大模型推理引擎研发工程师(J100363)
发布于 大约 14 小时前普通员工/个人贡献者
北京市
高级经验
全职员工
仅现场办公
学历未注明
CUDA
分布式存储
模型量化
推理引擎
SGLang
vLLM
Pagedattention
Kv Cache
AI 估算 · 35k–60k
大模型推理引擎为前沿技术方向,技能稀缺性强,百度薪酬体系在行业中上,高级工程师月薪约35k-60k。
职位详情
关于这个职位
这是一个专注于大模型推理引擎核心研发的技术岗位,负责KV Cache系统架构、分布式存储优化和高性能缓存方案,需要深入理解PagedAttention、vLLM等前沿技术,解决显存和带宽瓶颈问题,适合对底层系统有浓厚兴趣的资深工程师
最低要求
~3年及以上系统研发经验
精通内存管理、缓存淘汰算法或分布式存储系统(如Redis、Ceph、RocksDB等)
熟悉至少一种主流AI推理框架底层源码,理解PagedAttention、Continuous Batching、CUDA Graph等核心技术
精通C++/Python,具备并行计算基础
了解KV Cache量化技术(FP8、INT4等)
工作职责
KV Cache系统架构研发:设计并开发KV Cache管理器(如PagedAttention、RadixCache机制),优化显存利用率
分布式存储优化:设计跨节点、多层级(HBM-Mem-SSD)的KV Cache卸载与交换系统
高性能需求支撑:为RAG、长文本对话、多轮会话提供高性能缓存复用与预取方案
前沿技术跟踪:深度参与并优化SGLang、vLLM、TensorRT-LLM、LightLLM等推理框架,落地最新科研成果
性能瓶颈分析:解决显存碎片、数据污染、带宽瓶颈及精度下降等问题
优先资格
有vLLM、SGLang、FlashInfer等开源社区贡献记录(Contribute/PR)
熟悉Linux内核内存管理或CUDA编程
熟悉存储领域(KV Cache卸载与交换)
AI 洞察
优缺点分析
优点
- 处于AI最热门的大模型赛道,技术前沿,个人成长空间极大
- 百度平台资源丰富,能接触到海量用户场景和顶尖技术团队
- 工作内容兼具底层系统与算法优化,技术深度高,不易被替代
- 技术壁垒高,需要同时掌握存储、并行计算、CUDA等多领域知识,学习曲线陡峭
- 开源社区迭代快速,需要持续跟踪最新论文和框架,保持技术敏感度
缺点 / 挑战
- 大模型推理场景对延迟和吞吐要求极高,工作可能面临较大压力
- 适合对底层系统有浓厚兴趣、喜欢挑战性能极致、希望在AI基础设施领域深耕的资深工程师
角色解读
- 成为大模型推理引擎领域的专家,主导核心组件的架构演进
- 可向AI系统架构师方向发展,负责更大规模的训练/推理集群设计
- 或转向开源社区贡献,成为vLLM、SGLang等项目的核心维护者
- 设计并优化KV Cache管理器,提升显存利用率和推理吞吐量
- 开发跨节点、多层级存储系统,实现KV Cache的高效卸载与交换
- 针对RAG、长文本对话等场景,研发高性能缓存复用与预取方案
- 跟踪并落地SGLang、vLLM等社区最新技术,解决显存碎片、带宽瓶颈等硬核问题
- 精通C++/Python,深入理解内存管理、缓存淘汰算法
- 熟悉PagedAttention、Continuous Batching、CUDA Graph等推理核心技术
- 掌握分布式存储原理,有Redis、Ceph或RocksDB等系统经验
- 了解KV Cache量化技术(FP8、INT4)及精度平衡
申请策略
- 提前了解百度飞桨(PaddlePaddle)生态系统,思考推理引擎如何与之结合
- 在面试中展示对性能瓶颈分析的系统性思路,例如如何排查显存碎片
- 突出系统研发经验,尤其是内存管理、缓存算法或分布式存储项目
- 展示对推理框架的深入理解,如vLLM源码分析、优化PR或性能对比
- 强调C++/Python编程能力,附上GitHub链接或技术博客
- 如果有量化或CUDA优化经验,务必详细描述
- 深入学习PagedAttention、Paged KV等论文并复现实验
- 动手阅读vLLM、SGLang源码,尝试提交小型PR或修复bug
面试指南
- 对于原理性问题,采用“背景-核心机制-优缺点-改进”结构
- 对于设计问题,先明确目标和约束(延迟、吞吐、成本),再给出分层方案
- 对于经验问题,使用STAR法则(情境、任务、行动、结果)
- 请解释PagedAttention的原理及其在显存优化中的作用
- 如何设计KV Cache的卸载策略,在HBM和SSD之间做权衡?
- 你如何优化一个推理框架的Continuous Batching调度?
- 描述你解决过的内存碎片或带宽瓶颈问题,用了哪些方法?
- 复习大模型推理经典论文:PagedAttention、FlashAttention、vLLM论文
匹配度报告
68
综合匹配度
百度核心大模型推理研发,前沿技术栈、高成长性,但工作强度大、WLB一般。
适合人群
最适合追求技术成长和前沿探索的工程师,愿意为职业发展投入高强度工作,对工作生活平衡要求不高的人群。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活40
使命价值65
薪资福利匹配
70中等
百度作为头部互联网公司,薪资福利有竞争力,但具体薪资未明确,且高管级待遇需面议,补偿性动机满足度中等偏上。
薪资信号未披露(AI估算:35K-60K/月)
成长发展匹配
95较高
该岗位处于大模型核心研发位置,技术前沿性极强,参与社区最新框架落地,成长空间巨大,发展性动机满足度极高。
技术前沿前沿/新兴技术
技术栈KV Cache、PagedAttention、vLLM、SGLang、CUDA、分布式存储、量化
业务类型ambiguous
工作生活匹配
40较低
工作地点在北京百度总部,现场办公为主,没有明确WLB信号,大模型研发强度较高,生活化动机满足度较低。
工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)
使命价值匹配
65中等
大模型技术推动AI发展,有一定社会价值,但岗位描述偏技术实现,未强调使命感,意义感动机满足度中等。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
百度 的其他在招职位
相似职位推荐
Watch Jobs