Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Baidu logo
百度
大模型推理工程师(J101025)
立即应聘

大模型推理工程师(J101025)

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
软件工程
gRPC
量化
TensorRT
vLLM
大模型推理
Pagedattention
Kv Cache
Tgi
Maas

AI 估算 · 25k–40k

大模型方向热门前沿,百度平台技术积累深厚,1-3年经验薪资高于市场平均水平。

职位详情

关于这个职位

该职位负责百度MaaS平台的大模型推理部署与性能优化,涉及LLM推理加速、服务架构搭建及线上稳定性保障

你将使用vLLM/TensorRT等引擎,优化模型推理效率并降低成本
适合有大模型推理工程经验、熟悉Kubernetes和微服务的工程师

最低要求

本科及以上学历,计算机、软件工程、人工智能等相关专业,1-3年大模型推理工程落地经验,熟悉LLM推理原理

熟练掌握 Python、Linux、Shell,熟悉网络、多进程/多线程、异步并发编程
精通大模型推理优化技术,熟练使用 vLLM/TGI/TensorRT 至少一种主流推理引擎,掌握量化(INT4/INT8)、KV Cache、PagedAttention、动态批处理等核心优化手段
熟悉模型服务化架构,掌握FastAPI/Grpc、容器化Docker、K8s基本部署运维,了解微服务高可用设计
具备线上高并发推理服务落地经验,能够独立完成压测、性能调优、问题复盘与稳定性优化
熟悉GPU算力资源调度、显存、吞吐、延迟指标体系,有MaaS、云模型服务、AI中台相关经验优先
具备良好的工程规范、文档能力、问题排查能力,抗压能力强,能跟随业务快速迭代

工作职责

负责大语言模型、多模态模型的推理部署、性能优化与服务化落地,支撑公司MaaS模型服务平台对外稳定、低成本提供推理能力

负责模型推理链路优化,包括推理加速、批处理调度、KV Cache优化等,持续提升吞吐、降低延迟、减少GPU资源成本
搭建和优化大模型推理服务架构,实现模型热加载、动态扩缩容、流量隔离、负载均衡、超时重试、熔断降级,保障线上高并发、高可用、低抖动
负责线上推理问题排查、性能瓶颈分析、稳定性治理,持续优化算力利用率、售卖率、服务SLA,支撑业务规模化商用
配合业务、算法、平台团队,完成新模型接入、版本迭代、灰度发布、压测验收,输出标准化部署、监控、运维规范
参与MaaS平台推理调度、资源管理、计费统计、算力运营体系建设,助力模型服务商业化落地

优先资格

有MaaS、云模型服务、AI中台相关经验优先

AI 洞察

优缺点分析

优点

  • 处于AI大模型商业化风口,技术前沿且有实际落地场景,技能积累价值高
  • 百度MaaS平台提供大规模真实业务场景,能够锻炼高并发、高可用系统设计能力
  • 技术栈主流(vLLM、K8s、TensorRT),职业竞争力强,跳槽空间大
  • 线上推理服务对稳定性和性能要求极高,需跟进业务快速迭代,工作强度较大
  • 需要同时掌握工程(容器化、微服务)和算法(推理优化)的跨领域知识,学习曲线陡峭
  • 适合有大模型推理或AI Infra背景、追求技术深度和广度、抗压能力强的中高级工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 可向大模型推理架构师或AI平台技术专家方向发展,负责更大规模的推理系统设计
  • 也可转型为AI Infra团队核心成员,参与算力调度和模型服务化平台建设
  • 未来有机会接触前沿的LLM训练优化技术,拓展至训推一体方向
  • 负责大语言模型和多模态模型的推理部署与性能优化,使用vLLM、TensorRT等引擎加速推理
  • 设计并维护高并发、高可用的推理服务架构,包括动态扩缩容、负载均衡和熔断降级
  • 与算法、业务团队协作,完成模型迭代上线,并持续优化GPU资源利用率和成本
  • 精通Python、Linux、Shell,熟悉异步并发编程和网络编程
  • 掌握至少一种主流推理引擎(vLLM/TGI/TensorRT),理解量化、KV Cache等优化技术
  • 熟悉容器化部署(Docker/K8s)和微服务架构,具备线上高并发服务调优经验

申请策略

  • 关注百度的MaaS平台商业化方向,面试中可结合业务场景提出优化思路
  • 准备好系统设计题,尤其是高并发推理服务的架构设计
  • 突出使用vLLM/TensorRT进行推理加速的量化成果,如吞吐提升、延迟降低的具体数据
  • 强调线上服务稳定性治理经验,包括压测、性能调优、SLA保障的案例
  • 展示容器化和微服务架构方面的项目,如K8s部署实践、自动扩缩容方案
  • 若未用过vLLM,可花时间阅读源码并实践部署,加深对PagedAttention等机制的理解
  • 补充学习GPU显存分析和性能调优工具(如nvidia-smi、Nsight)

面试指南

  • 对于原理性问题,先清晰定义术语,然后分步骤解释机制,最后联系实际应用
  • 对于系统设计题,从需求分析、架构分层、关键组件(负载均衡、队列、容错)入手,突出高可用和弹性
  • 对于排查类问题,采用“现象→可能原因→逐步排查→解决验证”的逻辑链
  • 请解释PagedAttention的原理以及它如何提升推理吞吐?
  • 你如何设计一个支持模型热加载且高可用的推理服务架构?
  • 在线上推理服务中遇到GPU显存不足或延迟抖动时,你会如何排查和优化?
  • 描述一个你使用vLLM或TensorRT进行推理加速的项目,以及具体的优化效果
  • 复习LLM推理优化核心技术,如量化、KV Cache、束搜索等,并能对比不同方案优劣

职位点评

69
综合评分

百度大模型推理岗,前沿技术栈,发展空间大,但工作强度较高且WLB偏弱。

更适合这类人
适合追求技术成长和发展机会、重视职业技能积累、对工作生活平衡要求不高的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展90
工作生活40
使命价值70

薪资福利

75中等

百度为上市公司,薪资福利在行业具有竞争力,但JD未明确具体薪酬和福利,综合评估薪资信号为市场水准,福利未提及。

薪资信号市场水准 (25K-40K/月)

成长发展

90较高

该职位专注大模型推理前沿技术,使用主流现代技术栈(vLLM、TensorRT等),成长信号强,JD明确涉及平台建设与业务迭代,发展空间大。

技术前沿前沿/新兴技术
技术栈大模型推理、vLLM、TGI、TensorRT、量化、KV Cache、PagedAttention、Docker、Kubernetes、MaaS
业务类型profit_center

工作生活

40较低

工作地点北京,仅现场办公,未提及弹性工时或远程,JD暗示高强度(抗压、快速迭代),WLB信号弱。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

大模型赛道高速增长,社会影响力中性,JD未强调使命导向,但MaaS商业化有明确产业价值。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

百度 的其他在招职位

  • 资深活动运营(J100660)

    百度 · 北京市
    AI 估算 · 20k-40k
  • 内审内控(J101047)

    百度 · 北京市
    AI 估算 · 25k-40k
  • 客服经理(J101024)

    百度 · 广州市
    AI 估算 · 15k-25k
  • 海外创新业务拓展(J101026)

    百度 · 北京市
    AI 估算 · 25k-45k
  • 资源规划分析师(J99831)

    百度 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • 高级Android工程师

    小米 · 南京市
    AI 估算 · 20k-35k
  • 端侧大模型部署优化工程师-活水专用

    小米 · 北京市
    AI 估算 · 25k-45k
  • 高级/资深操作系统架构专家

    小米 · 北京市
    AI 估算 · 50k-80k
  • OS图形架构师

    小米 · 北京市
    AI 估算 · 30k-60k
  • AI工程平台架构师

    小米 · 北京市
    AI 估算 · 50k-80k

百度 的其他在招职位

  • 资深活动运营(J100660)

    百度 · 北京市
    AI 估算 · 20k-40k
  • 内审内控(J101047)

    百度 · 北京市
    AI 估算 · 25k-40k
  • 客服经理(J101024)

    百度 · 广州市
    AI 估算 · 15k-25k
  • 海外创新业务拓展(J101026)

    百度 · 北京市
    AI 估算 · 25k-45k
  • 资源规划分析师(J99831)

    百度 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • 高级Android工程师

    小米 · 南京市
    AI 估算 · 20k-35k
  • 端侧大模型部署优化工程师-活水专用

    小米 · 北京市
    AI 估算 · 25k-45k
  • 高级/资深操作系统架构专家

    小米 · 北京市
    AI 估算 · 50k-80k
  • OS图形架构师

    小米 · 北京市
    AI 估算 · 30k-60k
  • AI工程平台架构师

    小米 · 北京市
    AI 估算 · 50k-80k