Baidu logo
百度
大模型推理引擎研发工程师(J100363)

大模型推理引擎研发工程师(J100363)

发布于 大约 14 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
CUDA
分布式存储
模型量化
推理引擎
SGLang
vLLM
Pagedattention
Kv Cache

AI 估算 · 35k–60k

大模型推理引擎为前沿技术方向,技能稀缺性强,百度薪酬体系在行业中上,高级工程师月薪约35k-60k。

职位详情

关于这个职位

这是一个专注于大模型推理引擎核心研发的技术岗位,负责KV Cache系统架构、分布式存储优化和高性能缓存方案,需要深入理解PagedAttention、vLLM等前沿技术,解决显存和带宽瓶颈问题,适合对底层系统有浓厚兴趣的资深工程师

最低要求

~3年及以上系统研发经验

精通内存管理、缓存淘汰算法或分布式存储系统(如Redis、Ceph、RocksDB等)
熟悉至少一种主流AI推理框架底层源码,理解PagedAttention、Continuous Batching、CUDA Graph等核心技术
精通C++/Python,具备并行计算基础
了解KV Cache量化技术(FP8、INT4等)

工作职责

KV Cache系统架构研发:设计并开发KV Cache管理器(如PagedAttention、RadixCache机制),优化显存利用率

分布式存储优化:设计跨节点、多层级(HBM-Mem-SSD)的KV Cache卸载与交换系统
高性能需求支撑:为RAG、长文本对话、多轮会话提供高性能缓存复用与预取方案
前沿技术跟踪:深度参与并优化SGLang、vLLM、TensorRT-LLM、LightLLM等推理框架,落地最新科研成果
性能瓶颈分析:解决显存碎片、数据污染、带宽瓶颈及精度下降等问题

优先资格

有vLLM、SGLang、FlashInfer等开源社区贡献记录(Contribute/PR)

熟悉Linux内核内存管理或CUDA编程
熟悉存储领域(KV Cache卸载与交换)

AI 洞察

优缺点分析

优点

  • 处于AI最热门的大模型赛道,技术前沿,个人成长空间极大
  • 百度平台资源丰富,能接触到海量用户场景和顶尖技术团队
  • 工作内容兼具底层系统与算法优化,技术深度高,不易被替代
  • 技术壁垒高,需要同时掌握存储、并行计算、CUDA等多领域知识,学习曲线陡峭
  • 开源社区迭代快速,需要持续跟踪最新论文和框架,保持技术敏感度

缺点 / 挑战

  • 大模型推理场景对延迟和吞吐要求极高,工作可能面临较大压力
  • 适合对底层系统有浓厚兴趣、喜欢挑战性能极致、希望在AI基础设施领域深耕的资深工程师

角色解读

  • 成为大模型推理引擎领域的专家,主导核心组件的架构演进
  • 可向AI系统架构师方向发展,负责更大规模的训练/推理集群设计
  • 或转向开源社区贡献,成为vLLM、SGLang等项目的核心维护者
  • 设计并优化KV Cache管理器,提升显存利用率和推理吞吐量
  • 开发跨节点、多层级存储系统,实现KV Cache的高效卸载与交换
  • 针对RAG、长文本对话等场景,研发高性能缓存复用与预取方案
  • 跟踪并落地SGLang、vLLM等社区最新技术,解决显存碎片、带宽瓶颈等硬核问题
  • 精通C++/Python,深入理解内存管理、缓存淘汰算法
  • 熟悉PagedAttention、Continuous Batching、CUDA Graph等推理核心技术
  • 掌握分布式存储原理,有Redis、Ceph或RocksDB等系统经验
  • 了解KV Cache量化技术(FP8、INT4)及精度平衡

申请策略

  • 提前了解百度飞桨(PaddlePaddle)生态系统,思考推理引擎如何与之结合
  • 在面试中展示对性能瓶颈分析的系统性思路,例如如何排查显存碎片
  • 突出系统研发经验,尤其是内存管理、缓存算法或分布式存储项目
  • 展示对推理框架的深入理解,如vLLM源码分析、优化PR或性能对比
  • 强调C++/Python编程能力,附上GitHub链接或技术博客
  • 如果有量化或CUDA优化经验,务必详细描述
  • 深入学习PagedAttention、Paged KV等论文并复现实验
  • 动手阅读vLLM、SGLang源码,尝试提交小型PR或修复bug

面试指南

  • 对于原理性问题,采用“背景-核心机制-优缺点-改进”结构
  • 对于设计问题,先明确目标和约束(延迟、吞吐、成本),再给出分层方案
  • 对于经验问题,使用STAR法则(情境、任务、行动、结果)
  • 请解释PagedAttention的原理及其在显存优化中的作用
  • 如何设计KV Cache的卸载策略,在HBM和SSD之间做权衡?
  • 你如何优化一个推理框架的Continuous Batching调度?
  • 描述你解决过的内存碎片或带宽瓶颈问题,用了哪些方法?
  • 复习大模型推理经典论文:PagedAttention、FlashAttention、vLLM论文

匹配度报告

68
综合匹配度

百度核心大模型推理研发,前沿技术栈、高成长性,但工作强度大、WLB一般。

适合人群
最适合追求技术成长和前沿探索的工程师,愿意为职业发展投入高强度工作,对工作生活平衡要求不高的人群。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活40
使命价值65

薪资福利匹配

70中等

百度作为头部互联网公司,薪资福利有竞争力,但具体薪资未明确,且高管级待遇需面议,补偿性动机满足度中等偏上。

薪资信号未披露(AI估算:35K-60K/月)

成长发展匹配

95较高

该岗位处于大模型核心研发位置,技术前沿性极强,参与社区最新框架落地,成长空间巨大,发展性动机满足度极高。

技术前沿前沿/新兴技术
技术栈KV Cache、PagedAttention、vLLM、SGLang、CUDA、分布式存储、量化
业务类型ambiguous

工作生活匹配

40较低

工作地点在北京百度总部,现场办公为主,没有明确WLB信号,大模型研发强度较高,生活化动机满足度较低。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

65中等

大模型技术推动AI发展,有一定社会价值,但岗位描述偏技术实现,未强调使命感,意义感动机满足度中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs