Baidu logo
百度
大模型训推框架优化工程师(J97863)

大模型训推框架优化工程师(J97863)

发布于 2 天前

普通员工/个人贡献者

北京市 / 上海市
中级经验
全职员工
仅现场办公
学历未注明
CUDA
AI芯片
大模型
DeepSpeed
SGLang
vLLM
MoE
Megatron
Kv Cache
训推框架

AI 估算 · 30k–60k

一线城市大模型技术岗,技术壁垒高,大厂薪资竞争力强,月薪3-6万,年终2-4个月。

职位详情

关于这个职位

加入百度智能云AI计算部训推加速团队,专注于大模型训练与推理的性能极致优化

你将接触万卡推理集群和千卡训练集群,参与自研芯片的规模化应用,从框架到硬件全栈优化,确保DeepSeek、GLM等SOTA模型获得业界最优的吞吐与延迟
适合对大模型训推引擎有浓厚兴趣、追求技术极致的工程师

最低要求

思维活跃,学习能力强、自驱力强,愿意主动捣腾事情

对大模型训推引擎或异构计算编程有浓厚的兴趣
拥有 vLLM、SGLang、Megatron、DeepSpeed 等主流框架的实战或者学习经验,或具备深入的 CUDA/高性能算子开发经历
对技术执着,不满足于“能跑”,致力于“更快”,愿意死磕每一个微小的优化点,追求系统性能的极致边界

工作职责

大模型推理引擎优化:面向大规模 MoE 架构,从服务调度、并行策略、KV Cache 管理等维度进行极致优化,确保 DeepSeek、GLM 等 SOTA 模型获得业界最优的吞吐与延迟表现

积极参与 sglang 社区,将领先的 feature 回馈社区
高性能 KV 系统开发:参与自研的生产级 KV Cache 池化系统的开发,实现 Prefill 与 Decode 阶段的一化内存管理,突破显存墙限制,提升长上下文处理能力
全模态训练引擎研发:构建自研全模态训练框架,设计自适应切分与通算编排策略,让 LLM、VLM、VLA 等多模态前沿模型获得业界领先的训练效率
自研芯片算子与适配:深入底层硬件,极致优化自研芯片算子性能,完成主流大模型框架的适配与迁移,充分释放自研芯片的算力潜能

优先资格

具备良好的"Vibe Coding"素养,善于利用 AI 工具链提升工程效率,对人机协同编程有丰富的实践经验和独到感悟

在大模型训推方向有优秀的论文产出,能够将工程实践转化为高质量的学术成果

AI 洞察

优缺点分析

优点

  • 百度平台资源丰富,MaaS服务、千卡训练任务提供实战场景
  • 团队鼓励开源贡献,能参与社区建设,提升行业影响力
  • 薪资竞争力强,大厂福利体系完善
  • 技术难度高,需深入底层硬件和框架,学习曲线陡峭
  • 工作强度较大,追求极致的性能优化需要大量投入
  • AI行业更新快,需持续学习最新模型和框架
  • 适合对AI系统底层优化充满热情、乐于死磕技术细节、希望在大模型领域快速成长的工程师

缺点 / 挑战

  • 身处AI最前沿,接触万卡级集群和自研芯片,技术挑战大、积累含金量高

角色解读

  • 技术纵深发展:成为大模型训推架构专家,主导下一代推理引擎设计
  • 横向扩展:从推理到训练全栈覆盖,晋升为系统架构师
  • 管理路线:带领团队攻关核心性能指标,成长为技术经理
  • 优化大模型推理引擎,提升MoE架构下的服务吞吐和延迟,参与vLLM、SGLang等开源社区
  • 开发高性能KV Cache池化系统,突破显存墙限制,支持长上下文处理
  • 研发全模态训练框架,设计自适应切分策略,提升LLM、VLM等模型的训练效率
  • 优化自研AI芯片算子性能,完成主流框架适配与迁移,释放芯片潜力
  • 精通大模型训推框架如vLLM、SGLang、Megatron、DeepSpeed等
  • 深入掌握CUDA编程和高性能算子开发,具备异构计算经验
  • 熟悉MoE架构、KV Cache管理、分布式并行策略
  • 具备自研芯片或底层硬件优化经验者优先

申请策略

  • 在简历中附上个人GitHub或技术博客,展示技术热情和深度
  • 提前了解百度自研芯片(如昆仑芯)的基本架构,展现对全栈优化的理解
  • 突出大模型训推框架的实战经验,如优化过特定模型或参与过相关项目
  • 展示CUDA/高性能算子开发成果,如性能提升数据或开源贡献
  • 强调对系统性能极致优化的案例,如降低延迟、提升吞吐的具体指标
  • 如有论文或开源贡献(特别是vLLM、SGLang等),务必提及
  • 系统学习vLLM、SGLang等框架源码,理解其调度、并行、显存管理机制
  • 深入掌握CUDA编程,练习算子优化技巧(如warp shuffle、shared memory)

面试指南

  • 结构化回答:先阐述问题背景,再提出具体策略(如KV Cache量化、PagedAttention),最后总结效果
  • 对比分析:比较不同框架或方法的优缺点,展现技术视野
  • 量化思维:回答中尽量用数据说话,如延迟减少XX%,吞吐提升XX倍
  • 如何优化Transformer推理中的KV Cache?请举例说明
  • 请解释vLLM的调度机制,如何提升吞吐?
  • 在MoE模型中,哪些并行策略能减少通信开销?
  • 描述一个你在CUDA算子优化中的具体案例,包括挑战和效果
  • 如何调试大模型训练中的显存不足问题?有哪些优化手段?

匹配度报告

70
综合匹配度

大厂前沿技术岗,薪资高、成长快、技术极客乐园,但工作节奏紧张。

适合人群
适合追求技术深度和前沿发展、对工作强度有准备、不特别看重WLB的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活40
使命价值75

薪资福利匹配

70中等

薪资未披露但大厂普遍较高,福利未提及,补偿性动机中等。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

95较高

技术前沿性极强,涉及大模型训推全栈优化,成长空间巨大,是发展性动机的核心优势。

技术前沿前沿/新兴技术
技术栈大模型、训推框架、CUDA、vLLM、SGLang、Megatron、DeepSpeed、MoE、KV Cache、AI芯片
业务类型ambiguous

工作生活匹配

40较低

仅现场办公,未提及WLB,互联网大厂高强度岗位,生活化动机较低。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

75中等

大模型是高速增长赛道,推动技术边界,有一定的使命感和行业影响力,但未提及社会价值。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs