
百度
大模型训推框架优化工程师(J97863)
大模型训推框架优化工程师(J97863)
发布于 2 天前普通员工/个人贡献者
北京市 / 上海市
中级经验
全职员工
仅现场办公
学历未注明
CUDA
AI芯片
大模型
DeepSpeed
SGLang
vLLM
MoE
Megatron
Kv Cache
训推框架
AI 估算 · 30k–60k
一线城市大模型技术岗,技术壁垒高,大厂薪资竞争力强,月薪3-6万,年终2-4个月。
职位详情
关于这个职位
加入百度智能云AI计算部训推加速团队,专注于大模型训练与推理的性能极致优化
你将接触万卡推理集群和千卡训练集群,参与自研芯片的规模化应用,从框架到硬件全栈优化,确保DeepSeek、GLM等SOTA模型获得业界最优的吞吐与延迟
适合对大模型训推引擎有浓厚兴趣、追求技术极致的工程师
最低要求
思维活跃,学习能力强、自驱力强,愿意主动捣腾事情
对大模型训推引擎或异构计算编程有浓厚的兴趣
拥有 vLLM、SGLang、Megatron、DeepSpeed 等主流框架的实战或者学习经验,或具备深入的 CUDA/高性能算子开发经历
对技术执着,不满足于“能跑”,致力于“更快”,愿意死磕每一个微小的优化点,追求系统性能的极致边界
工作职责
大模型推理引擎优化:面向大规模 MoE 架构,从服务调度、并行策略、KV Cache 管理等维度进行极致优化,确保 DeepSeek、GLM 等 SOTA 模型获得业界最优的吞吐与延迟表现
积极参与 sglang 社区,将领先的 feature 回馈社区
高性能 KV 系统开发:参与自研的生产级 KV Cache 池化系统的开发,实现 Prefill 与 Decode 阶段的一化内存管理,突破显存墙限制,提升长上下文处理能力
全模态训练引擎研发:构建自研全模态训练框架,设计自适应切分与通算编排策略,让 LLM、VLM、VLA 等多模态前沿模型获得业界领先的训练效率
自研芯片算子与适配:深入底层硬件,极致优化自研芯片算子性能,完成主流大模型框架的适配与迁移,充分释放自研芯片的算力潜能
优先资格
具备良好的"Vibe Coding"素养,善于利用 AI 工具链提升工程效率,对人机协同编程有丰富的实践经验和独到感悟
在大模型训推方向有优秀的论文产出,能够将工程实践转化为高质量的学术成果
AI 洞察
优缺点分析
优点
- 百度平台资源丰富,MaaS服务、千卡训练任务提供实战场景
- 团队鼓励开源贡献,能参与社区建设,提升行业影响力
- 薪资竞争力强,大厂福利体系完善
- 技术难度高,需深入底层硬件和框架,学习曲线陡峭
- 工作强度较大,追求极致的性能优化需要大量投入
- AI行业更新快,需持续学习最新模型和框架
- 适合对AI系统底层优化充满热情、乐于死磕技术细节、希望在大模型领域快速成长的工程师
缺点 / 挑战
- 身处AI最前沿,接触万卡级集群和自研芯片,技术挑战大、积累含金量高
角色解读
- 技术纵深发展:成为大模型训推架构专家,主导下一代推理引擎设计
- 横向扩展:从推理到训练全栈覆盖,晋升为系统架构师
- 管理路线:带领团队攻关核心性能指标,成长为技术经理
- 优化大模型推理引擎,提升MoE架构下的服务吞吐和延迟,参与vLLM、SGLang等开源社区
- 开发高性能KV Cache池化系统,突破显存墙限制,支持长上下文处理
- 研发全模态训练框架,设计自适应切分策略,提升LLM、VLM等模型的训练效率
- 优化自研AI芯片算子性能,完成主流框架适配与迁移,释放芯片潜力
- 精通大模型训推框架如vLLM、SGLang、Megatron、DeepSpeed等
- 深入掌握CUDA编程和高性能算子开发,具备异构计算经验
- 熟悉MoE架构、KV Cache管理、分布式并行策略
- 具备自研芯片或底层硬件优化经验者优先
申请策略
- 在简历中附上个人GitHub或技术博客,展示技术热情和深度
- 提前了解百度自研芯片(如昆仑芯)的基本架构,展现对全栈优化的理解
- 突出大模型训推框架的实战经验,如优化过特定模型或参与过相关项目
- 展示CUDA/高性能算子开发成果,如性能提升数据或开源贡献
- 强调对系统性能极致优化的案例,如降低延迟、提升吞吐的具体指标
- 如有论文或开源贡献(特别是vLLM、SGLang等),务必提及
- 系统学习vLLM、SGLang等框架源码,理解其调度、并行、显存管理机制
- 深入掌握CUDA编程,练习算子优化技巧(如warp shuffle、shared memory)
面试指南
- 结构化回答:先阐述问题背景,再提出具体策略(如KV Cache量化、PagedAttention),最后总结效果
- 对比分析:比较不同框架或方法的优缺点,展现技术视野
- 量化思维:回答中尽量用数据说话,如延迟减少XX%,吞吐提升XX倍
- 如何优化Transformer推理中的KV Cache?请举例说明
- 请解释vLLM的调度机制,如何提升吞吐?
- 在MoE模型中,哪些并行策略能减少通信开销?
- 描述一个你在CUDA算子优化中的具体案例,包括挑战和效果
- 如何调试大模型训练中的显存不足问题?有哪些优化手段?
匹配度报告
70
综合匹配度
大厂前沿技术岗,薪资高、成长快、技术极客乐园,但工作节奏紧张。
适合人群
适合追求技术深度和前沿发展、对工作强度有准备、不特别看重WLB的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活40
使命价值75
薪资福利匹配
70中等
薪资未披露但大厂普遍较高,福利未提及,补偿性动机中等。
薪资信号未披露(AI估算:30K-60K/月)
成长发展匹配
95较高
技术前沿性极强,涉及大模型训推全栈优化,成长空间巨大,是发展性动机的核心优势。
技术前沿前沿/新兴技术
技术栈大模型、训推框架、CUDA、vLLM、SGLang、Megatron、DeepSpeed、MoE、KV Cache、AI芯片
业务类型ambiguous
工作生活匹配
40较低
仅现场办公,未提及WLB,互联网大厂高强度岗位,生活化动机较低。
工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)
使命价值匹配
75中等
大模型是高速增长赛道,推动技术边界,有一定的使命感和行业影响力,但未提及社会价值。
行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
百度 的其他在招职位
相似职位推荐
Watch Jobs