
百度
2027AIDU-AI异构计算研发工程师(J99964)
2027AIDU-AI异构计算研发工程师(J99964)
发布于 1 天前普通员工/个人贡献者
北京市 / 上海市
高级经验
全职员工
仅现场办公
学历未注明
分布式计算
GPU
FPGA
ASIC
深度学习框架
编译器
ARM
CUDA
LLVM
MPI
AI 估算 · 30k–50k
百度大厂高级技术岗,AI异构计算方向稀缺,对标P7-P8级别,薪资竞争力强。
职位详情
关于这个职位
加入百度大模型基建部,负责构建全球领先的AI异构计算加速引擎
你将参与深度学习推理引擎、通信库、编译系统的开发与优化,面向CPU/GPU/FPGA/ASIC等多架构,解决大规模AI计算的性能挑战
适合对底层计算加速有热情的技术专家
最低要求
任职要求: 精通以下一项或多项专业技能,或在相关领域具备丰富经验 专业技能: 1. 热爱编程,精通C++/Python
具有独立开发能力,对AI算法和主流框架有丰富的应用或开发经验
精通GPU/ARM/MIPS/DSP等任意异构计算平台
精通计算机体系结构,有汇编级别开发经验
精通GPU/ARM/MIPS/DSP等异构计算平台的通信库
精通MPI,对不同网络拓扑结构的通信算法及底层通信函数有深入研究,对RDMA,GPU direct等技术有了解
对分布式计算有深入理解,特别是同步,异步等通信策略在AI计算中的应用
软素质: 1. 目标驱动,并有探索精神
团队协作及沟通能力
具备分析和解决问题的能力
有极强的学习能力和知识迁移能力
工作职责
负责大规模AI前向计算引擎(Inference Engine)框架和底层算子开发与优化
负责大规模AI计算通信库及通信算法开发与优化
负责面向CPU/GPU/FPGA/ASIC等多元化计算架构的编译系统开发、编译优化和算法加速
负责异构高性能计算平台的设计、研发,高性能计算库、通信库开发与优化
优先资格
具有以下条件者优先: 1. 精通PaddlePaddle、Caffe/Caffe2、MXNET、TensorFlow等开源框架,做过源码级优化移植等工作
熟练使用Cublas、Cudnn、MIopen、OpenBlas、MKL、Eigen等主流计算库
熟悉AI training通信过程,熟悉MPI,NCCL,RDMA,GPU Direct等通信技术
精通CUDA/OpenCL开发,有SASS或PTX级别优化开发经验
精通Neon或ARM-GPU开发,有过大小端并行计算优化经验及ARM-GPU协同开发经验
精通常用硬件平台性能分析工具链,如CodeXL\NVVP\GPA等
精通LLVM
有Linux内核相关开发和优化经验
AI 洞察
优缺点分析
优点
- 百度大模型核心部门,接触前沿AI基础设施技术栈
- 深度参与软硬件协同优化,技术壁垒高,积累经验稀缺
- 团队技术氛围浓厚,与顶级工程师共事,成长快速
- 技术难度大,需同时掌握算法、体系结构、通信等多个领域
- 对底层系统优化要求极高,调试和问题定位耗时
缺点 / 挑战
- 工作强度较高,项目周期紧,需快速迭代
- 适合对底层计算加速有浓厚兴趣、热爱挑战系统性能极限的资深工程师
角色解读
- 技术深耕:成为AI计算加速领域专家,主导核心组件研发
- 拓展方向:从单卡优化到集群调度,从模型算法到硬件协同设计
- 领导路径:逐步带领团队,成为技术负责人或架构师
- 负责大规模AI推理引擎的框架设计与算子优化,提升模型推理速度
- 开发高性能通信库和通信算法,加速分布式训练与推理
- 针对GPU/FPGA/ASIC等异构平台,开发编译工具链和优化技术
- 精通C++/Python,具备系统级编程能力
- 深入理解GPU或ARM等异构计算体系,有汇编级优化经验
- 熟悉MPI、RDMA等通信库,掌握分布式计算原理
申请策略
- 在简历中强调与AI框架(如PaddlePaddle)的源码级优化经历
- 提前了解百度在AI基础设施方面的公开技术文章,面试时展现技术兴趣
- 突出性能优化项目经验,如算子优化、通信库调优等具体成果
- 展示对GPU/ARM等架构的深入理解,包括汇编级优化经历
- 体现分布式训练或推理系统的实践经验,说明性能提升指标
- 熟悉CUDA编程模型及PTX/SASS指令集,强化底层优化能力
- 学习LLVM或TVM等编译器框架,了解编译优化原理
- 补充MPI和NCCL等通信库知识,理解大规模并行通信
面试指南
- 问题-行动-结果:明确性能瓶颈,说明优化策略(如算子融合、内存访问优化),量化提升指标
- 从原理到实现:先阐述底层原理,再结合具体平台(GPU/ARM)给出优化细节
- 系统思维:考虑计算、通信、IO等全链路,展示全局优化视角
- 请描述一次你优化AI模型推理性能的经历,用了哪些方法?
- 解释GPU上矩阵乘法的实现方式,如何利用共享内存优化?
- MPI中的Allreduce有几种实现?NCCL的Ring Allreduce原理是什么?
- 如何看待编译器在AI加速中的作用?LLVM如何优化计算图?
- 请设计一个跨节点通信方案,需要处理哪些瓶颈?
匹配度报告
76
综合匹配度
百度AI核心部门,异构计算前沿技术,薪资竞争力强,但WLB一般。
适合人群
适合追求技术深度和前沿挑战、对底层加速充满热情、愿意投入高强度工作获取快速成长的工程师。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展95
工作生活50
使命价值85
薪资福利匹配
75中等
百度作为上市巨头,薪资福利在行业中上水平,但JD未披露具体薪资和福利细节,需面议确认。
薪资信号未披露(AI估算:30K-50K/月)
成长发展匹配
95较高
该职位处于AI基础设施前沿,技术栈新且深度大,提供极佳的技术成长机会,但JD未明确提及晋升通道。
技术前沿前沿/新兴技术
技术栈AI异构计算、GPU、FPGA、ASIC、LLVM、MPI、RDMA、CUDA
业务类型profit_center
工作生活匹配
50较低
未提及远程或弹性办公,地点在北京上海核心区,但大厂研发通常有较高工作强度。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值匹配
85较高
AI基础设施对行业有巨大推动作用,百度在大模型领域持续投入,但成就感更多来源于技术本身而非直接社会价值。
行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
百度 的其他在招职位
相似职位推荐
Watch Jobs