Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Baidu logo
百度
百度公有云模型训推加速工程师(J95356)
立即应聘

百度公有云模型训推加速工程师(J95356)

发布于 大约 3 小时前

普通员工/个人贡献者

北京市 / 上海市
专家级经验
全职员工
仅现场办公
本科
软件工程
PyTorch
CUDA
NCCL
模型量化
Megatron-LM
DeepSpeed
SGLang
vLLM
TensorRT-LLM

AI 估算 · 35k–55k

大模型赛道稀缺,百度作为一线大厂薪资有竞争力,北京上海生活成本高,该岗位要求高难度技能,月薪中位数约45K。

职位详情

关于这个职位

该职位专注于大模型训练与推理的性能优化,需要深入掌握分布式训练策略(如数据并行、张量并行、流水线并行)以及推理加速技术(量化、算子融合、KV Cache优化等)

你将使用CUDA/CUTLASS等工具挖掘GPU硬件潜力,并跟踪业界前沿框架(如DeepSpeed、vLLM),推动优化方案从原型到生产落地
适合对AI Infra有热情、具备系统级优化能力的高级工程师

最低要求

计算机科学、电子信息或相关专业本科及以上学历

熟悉 PyTorch 框架及底层机制,了解 autograd、dispatcher、CUDA graph 等原理
熟悉大模型分布式训练方案,理解 NCCL 通信原语、混合精度训练(BF16/FP8)原理
熟悉主流推理加速框架(vLLM / TensorRT-LLM / TGI / SGLang 等),有实际部署优化经验
具备性能调优实战经验,能熟练使用 Nsight Systems / Compute、PyTorch Profiler 等工具
良好的工程能力与团队协作意识,能推动优化方案从原型到生产落地

工作职责

负责大模型训练阶段(SFT&RL)的性能优化,包括数据并行、张量并行、流水线并行等分布式训练策略的设计与实现

负责大模型推理阶段的加速优化,涵盖模型量化(INT8/INT4/FP8)、算子融合、KV Cache 优化、投机解码等技术落地
掌握cuda/cutlass dsl等编程,发掘GPU硬件特性,完成常见算子flashattention/gemm等优化工作
熟练使用Nsight Systems/Compute对算法的运行效率如速度、显存占用等进行优化,保证模型精度下提升模型的计算效率
跟踪业界前主流框架(如 DeepSpeed、Megatron-LM、vLLM、SGLang 等),评估并引入最佳实践

AI 洞察

优缺点分析

优点

  • 处于AI大模型最前沿的技术领域,技能积累极具市场价值
  • 百度作为国内AI领军企业,能接触到超大规模集群和真实业务场景
  • 团队技术氛围浓厚,有机会与业界顶级工程师合作,快速成长
  • 薪资水平在行业内具有竞争力,且百度福利体系完善
  • 技术门槛高,需要同时掌握分布式系统、GPU编程和深度学习框架底层机制
  • 适合对AI底层技术有浓厚兴趣、具备扎实系统工程能力、渴望在AI Infra领域深耕的资深工程师

缺点 / 挑战

  • 业务压力可能较大,大模型迭代速度快,需要快速响应和持续优化
  • 工作强度较高,可能涉及on-call或项目关键期的加班

角色解读

  • 技术深度方向:成为AI Infra领域的专家,主导大模型训练/推理系统的架构设计
  • 技术广度方向:横向拓展至更多AI芯片(如华为昇腾、AMD ROCm),成为异构计算专家
  • 管理方向:从技术Leader逐步过渡为AI基础设施团队的团队负责人或技术总监
  • 负责大模型训练阶段的分布式策略优化,提升SFT/RL等场景的训练效率
  • 负责大模型推理阶段的加速,包括量化、算子融合、KV Cache等技术落地
  • 使用CUDA/CUTLASS等编程语言,在GPU层面进行算子级优化,如FlashAttention、GEMM
  • 跟踪并评估业界主流框架(DeepSpeed、vLLM等),引入最佳实践以持续提升系统性能
  • 精通PyTorch框架底层机制,了解autograd、CUDA graph等原理
  • 深入理解分布式训练(NCCL、混合精度)和推理加速框架(vLLM、TensorRT-LLM等)
  • 熟练掌握CUDA/CUTLASS编程,具备Nsight等工具的性能调优经验
  • 具备系统工程能力,能将优化方案从原型推进到生产环境

申请策略

  • 在面试前了解百度的千亿大模型(如文心一言)的训练推理技术栈,可在面试中展示针对性思考
  • 提前准备一个端到端的性能优化案例,从问题定位到方案设计、落地效果,展示系统化思维能力
  • 突出在大模型训练或推理加速方面的实际项目经验,最好有性能提升的量化数据(如训练吞吐提升X%)
  • 详尽列出在分布式训练、模型量化、算子优化等方面的技术细节与成果
  • 强调对主流框架(DeepSpeed、vLLM等)的深入理解和二次开发经历
  • 如果有CUDA/CUTLASS编程的benchmark或开源贡献,务必重点展示
  • 系统学习CUDA编程和GPU架构,可以复现一些经典算子优化(如FlashAttention)
  • 深入研究vLLM或TensorRT-LLM的源码,理解其调度和内存管理机制

面试指南

  • STAR法则:描述情境、任务、行动、结果,量化指标强调性能提升
  • 技术细节:先给出概念定义,再深入原理(如公式或流程),最后结合实践讨论权衡
  • 对比分析:对于不同技术方案,从性能、精度、复杂度等维度进行对比,展示决策能力
  • 请详细描述你做过的一个大模型训练/推理加速的案例,包括遇到的挑战和解决方案
  • 解释FlashAttention的原理,并说明如何用CUDA实现一个简化版本
  • 分布式训练中,流水线并行与张量并行各有什么优缺点?如何选择?
  • 模型量化(如INT8)如何保证精度?请介绍常见的量化方法(PTQ、QAT)
  • vLLM的PagedAttention思想是什么?为什么能提升推理吞吐?

职位点评

71
综合评分

一线大厂、前沿AI Infra技术栈、薪资具有竞争力,但工作强度可能较高。

更适合这类人
最适合追求技术深度与前沿发展的求职者,如果对工作生活平衡要求较高,则需慎重考虑。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展95
工作生活45
使命价值70

薪资福利

75中等

百度作为上市公司,薪资水平有竞争力,但JD未提及具体薪资和福利,补偿性动机满足程度中等偏上。

薪资信号未披露(AI估算:35K-55K/月)

成长发展

95较高

该职位处于AI大模型最前沿技术领域,涉及CUDA优化、分布式训练、推理加速等尖端技能,发展性动机得到极好满足。

技术前沿前沿/新兴技术
技术栈PyTorch、CUDA、CUTLASS、DeepSpeed、Megatron-LM、vLLM、SGLang、TensorRT-LLM、NCCL、模型量化
业务类型profit_center

工作生活

45较低

JD未提及远程或弹性工作,百度作为互联网大厂通常要求现场办公且可能加班,生活化动机满足程度较低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

大模型技术是当前科技热点,推动AI基础设施进步具有一定社会价值,但JD未提及具体使命,意义感动机满足程度中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

百度 的其他在招职位

  • 交互设计师(J94316)

    百度 · 北京市
    AI 估算 · 18k-35k
  • B端医疗AI产品经理(J97199)

    百度 · 北京市
    AI 估算 · 25k-35k
  • AI全栈创意设计技术实习生(J98320)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 大模型推理架构研发工程师(J95970)

    百度 · 北京市
    AI 估算 · 40k-70k
  • 搜索产品实习生(活动方向)(J98187)

    百度 · 北京市
    AI 估算 · 3k-5k

相似职位推荐

  • 测试开发工程师-实习生

    小米 · 南京市
    AI 估算 · 4k-6k
  • 无线固件集成工程师Wireless Firmware Integration Engineer

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • 自动化控制工程师,软件

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • 小米汽车-软件工程师-BMS嵌入式软件

    小米 · 南京市
    AI 估算 · 20k-35k
  • Android技术专家

    小米 · 北京市
    AI 估算 · 30k-50k

百度 的其他在招职位

  • 交互设计师(J94316)

    百度 · 北京市
    AI 估算 · 18k-35k
  • B端医疗AI产品经理(J97199)

    百度 · 北京市
    AI 估算 · 25k-35k
  • AI全栈创意设计技术实习生(J98320)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 大模型推理架构研发工程师(J95970)

    百度 · 北京市
    AI 估算 · 40k-70k
  • 搜索产品实习生(活动方向)(J98187)

    百度 · 北京市
    AI 估算 · 3k-5k

相似职位推荐

  • 测试开发工程师-实习生

    小米 · 南京市
    AI 估算 · 4k-6k
  • 无线固件集成工程师Wireless Firmware Integration Engineer

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • 自动化控制工程师,软件

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • 小米汽车-软件工程师-BMS嵌入式软件

    小米 · 南京市
    AI 估算 · 20k-35k
  • Android技术专家

    小米 · 北京市
    AI 估算 · 30k-50k