Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Baidu logo
百度
大模型推理架构研发工程师(J95970)
立即应聘

大模型推理架构研发工程师(J95970)

发布于 大约 3 小时前

普通员工/个人贡献者

北京市 / 上海市
高级经验
全职员工
仅现场办公
学历未注明
软件工程
高性能计算
GPU优化
CUDA
大模型推理
MoE
PaddlePaddle
Flashattention
Pagedattention

AI 估算 · 40k–70k

AI大模型热门方向,百度核心岗位,技能要求高,薪资竞争力强,参考一线大厂同级别。

职位详情

关于这个职位

该职位负责百度文心大模型的推理性能优化,参与飞桨深度学习框架的设计与开发

工作涉及GPU/CPU深度优化、异构计算平台研发,并跟踪前沿技术
适合有C++/Python/CUDA背景、热爱大模型技术的工程师

最低要求

热爱编程,精通C++/Python,精通CUDA 编程

具有独立开发能力,精通计算机体系结构,有汇编级别开发经验,对AI算法和主流框架有丰富的应用或开发经验
了解FlashAttention、PagedAttention、MoE、Chunked Prefill 等大模型核心技术
了解常见的大模型量化算法(如AWQ、GPTQ、SmoothQuant 等)及量化算子的实现
了解大模型通信算子(如Allreduce 等)及计算通信 overlap 实现
有分离式部署(PD 分离)开发经验
目标驱动,并有探索精神
团队协作及沟通能力
具备分析和解决问题的能力
有极强的学习能力和知识迁移能力

工作职责

负责百度文心大模型的推理性能优化

参与飞桨深度学习平台( PaddlePaddle)推理框架的设计、开发和业务支持
负责深度学习框架的性能优化工作,包括但不限于功能模块在CPU/GPU上的深度优化工作
负责深度学习推理框架前瞻技术的跟踪调研,实现技术创新突破
参与深度学习框架的易用性优化工作,使开发者能够以更简单的方式实现各类任务,降低学习成本和开发成本
负责异构高性能计算平台的设计、研发,高性能计算库、通信库开发与优化
支持百度萝卜快跑、搜索等业务大模型的推理性能优化

优先资格

具有以下条件加分:精通PaddlePaddle、Pytorch、TensorFlow等主流开源框架,做过源码级优化移植等工作,有 vLLM、TGI、SGLang、TensorRT-LLM等大模型推理框架的使用或优化经验

AI 洞察

优缺点分析

优点

  • 接触最前沿的大模型推理技术(如FlashAttention、PD分离),技能积累快
  • 平台资源丰富,有机会与业界顶尖专家合作,参与开源社区
  • 北京/上海/深圳多城市可选,工作地点灵活
  • 技术栈深(C++/CUDA/汇编),学习曲线陡峭,需要扎实的底层功底
  • 适合有丰富C++/CUDA开发经验、对AI底层优化充满热情、愿意深耕大模型推理技术的工程师

缺点 / 挑战

  • 百度文心大模型是核心产品,项目含金量高,技术挑战大
  • 大模型推理优化处于快速迭代期,持续学习压力大
  • 工作强度可能较高,尤其是在项目交付或技术攻坚阶段

角色解读

  • 技术纵深:成为大模型推理优化专家,引领行业性能标准
  • 广度扩展:横跨AI框架、芯片适配、云原生部署等多领域
  • 管理方向:带团队负责核心推理项目,晋升为技术Leader
  • 负责百度文心大模型的推理性能优化,包括算法和工程层面的加速
  • 参与飞桨框架推理部分的开发和维护,支持内部及外部业务的大模型部署
  • 针对CPU/GPU进行深度优化,开发高性能计算库和通信库
  • 跟踪大模型推理前沿技术(如FlashAttention、PagedAttention),并推动落地
  • 精通C++/Python和CUDA编程,能进行底层汇编级别优化
  • 深入理解计算机体系结构和AI算法,熟悉主流深度学习框架
  • 熟悉大模型推理核心技术,如量化、算子优化、分布式通信
  • 具备独立开发、问题分析和团队协作能力

申请策略

  • 百度非常看重技术深度和实际动手能力,简历中请用具体数字衡量优化效果(如加速比、延迟降低等)
  • 面试前了解文心大模型的技术特点,思考推理优化的可能方向
  • 突出C++/Python/CUDA项目经验,尤其是GPU优化、汇编级别的性能调优案例
  • 展示对主流推理框架(vLLM、TensorRT-LLM等)的深入理解或贡献
  • 强调独立解决复杂问题的能力,如分离式部署、量化算子实现
  • 如有开源项目或技术博客,附上链接
  • 系统学习CUDA编程和GPU体系结构,掌握Nvidia性能分析工具(Nsight)
  • 深入研读FlashAttention、PagedAttention论文,并复现关键部分

面试指南

  • 技术原理类:先概述背景和动机,再解释核心创新点,最后结合实际应用场景
  • 实践类:按照问题-方案-实现-效果-反思的结构,突出你的思考和量化结果
  • 请详细讲解FlashAttention的原理及其在推理中的优势
  • 如何在CUDA中实现一个高效的Softmax kernel?
  • 大模型推理中,如何实现计算与通信的overlap?
  • 你之前做过哪些GPU优化项目?描述优化思路和效果
  • 对比PagedAttention和vLLM的实现,谈谈你的理解
  • 复习CUDA编程模型、共享内存、Warp调度等底层知识

职位点评

69
综合评分

百度核心大模型推理优化岗,前沿技术栈,高薪但WLB一般,适合技术极客。

更适合这类人
该职位最适合追求技术深度和前沿领域、愿意投入时间成长、对薪资和福利有较高期望的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利80
成长发展95
工作生活40
使命价值60

薪资福利

80较高

百度作为上市大厂,薪资福利有竞争力,岗位级别较高,补偿性动机满足较好。

薪资信号偏高 (40K-70K/月)

成长发展

95较高

岗位涉及大模型推理最前沿技术,技能成长空间极大,是技术深度发展的绝佳机会。

技术前沿前沿/新兴技术
技术栈FlashAttention、PagedAttention、MoE、CUDA、PaddlePaddle、vLLM、TensorRT-LLM
业务类型profit_center

工作生活

40较低

仅现场办公,未提及弹性工作或远程选项,且大模型研发工作强度可能较大,WLB一般。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值

60中等

AI大模型属于高速增长赛道,对技术发展有积极推动,但社会影响力相对中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

百度 的其他在招职位

  • 交互设计师(J94316)

    百度 · 北京市
    AI 估算 · 18k-35k
  • B端医疗AI产品经理(J97199)

    百度 · 北京市
    AI 估算 · 25k-35k
  • 百度公有云模型训推加速工程师(J95356)

    百度 · 北京市
    AI 估算 · 35k-55k
  • AI全栈创意设计技术实习生(J98320)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 搜索产品实习生(活动方向)(J98187)

    百度 · 北京市
    AI 估算 · 3k-5k

相似职位推荐

  • 测试开发工程师-实习生

    小米 · 南京市
    AI 估算 · 4k-6k
  • 无线固件集成工程师Wireless Firmware Integration Engineer

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • 自动化控制工程师,软件

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • 小米汽车-软件工程师-BMS嵌入式软件

    小米 · 南京市
    AI 估算 · 20k-35k
  • Android技术专家

    小米 · 北京市
    AI 估算 · 30k-50k

百度 的其他在招职位

  • 交互设计师(J94316)

    百度 · 北京市
    AI 估算 · 18k-35k
  • B端医疗AI产品经理(J97199)

    百度 · 北京市
    AI 估算 · 25k-35k
  • 百度公有云模型训推加速工程师(J95356)

    百度 · 北京市
    AI 估算 · 35k-55k
  • AI全栈创意设计技术实习生(J98320)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 搜索产品实习生(活动方向)(J98187)

    百度 · 北京市
    AI 估算 · 3k-5k

相似职位推荐

  • 测试开发工程师-实习生

    小米 · 南京市
    AI 估算 · 4k-6k
  • 无线固件集成工程师Wireless Firmware Integration Engineer

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • 自动化控制工程师,软件

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • 小米汽车-软件工程师-BMS嵌入式软件

    小米 · 南京市
    AI 估算 · 20k-35k
  • Android技术专家

    小米 · 北京市
    AI 估算 · 30k-50k