Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
大模型推理优化工程师
立即应聘

大模型推理优化工程师

发布于 大约 20 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
PyTorch
LLM
CUDA
量化
vLLM
分布式推理
TensorRT-LLM
Flashattention

AI 估算 · 30k–60k

大模型推理优化岗位稀缺,技术难度高,上海互联网大厂薪资竞争力强,预估月薪3-6万,15薪。

职位详情

关于这个职位

该职位专注于大语言模型和多模态模型的推理性能优化,包括减少延迟、提升吞吐量和显存效率

你将深入研究并应用主流推理加速框架(如vLLM、TensorRT-LLM),开发高性能CUDA算子,并探索KV Cache优化、量化等先进算法
与算法团队紧密协作,推动模型从训练到部署的全链路优化,是高技术含量和强影响力的前沿岗位

最低要求

计算机科学、电子工程、数学或相关专业本科及以上学历,3年以上高性能计算或AI系统开发经验

精通 C++ / Python 编程,具备优秀的代码实现能力和工程素养,熟悉 Linux 开发环境
深刻理解 Transformer 模型架构及 LLM 推理原理,对自回归解码过程中的计算瓶颈有清晰的认知
熟练掌握至少一种主流深度学习框架(PyTorch, TensorFlow)的底层机制,有 PyTorch 算子开发或模型导出(ONNX/TorchScript)经验者优先
具备扎实的 GPU 编程基础,熟悉 CUDA 编程模型

工作职责

负责大语言模型及多模态模型的推理性能优化,包括但不限于首字延迟(TTFT)、吞吐量(Throughput)和显存占用的优化,确保模型在线上生产环境的高效稳定运行

深入研究和落地主流推理加速框架(如 vLLM, TensorRT-LLM, TGI, SGLang, LightLLM 等),针对特定业务场景进行定制化开发与适配
负责高性能算子开发与优化,熟练使用 CUDA、Triton、FlashAttention 等技术,针对 Transformer 结构进行底层计算加速
探索并实现先进的推理优化算法,如 KV Cache 优化(PagedAttention, RadixAttention)、量化(INT8/INT4/FP8)、模型剪枝、投机采样(Speculative Decoding)、连续批处理(Continuous Batching)等
参与推理服务系统的架构设计与开发,优化分布式推理策略(如张量并行 TP、流水线并行 PP),提升大规模集群下的推理扩展性
与算法团队紧密配合,打通从模型训练到推理部署的全链路,推动模型压缩与端侧/边缘侧部署的落地

AI 洞察

优缺点分析

优点

  • 身处大模型浪潮核心,技术前沿性强,技能积累极具市场价值
  • B站作为知名互联网平台,拥有海量用户和丰富业务场景,能够接触真实大规模生产环境
  • 团队氛围技术驱动,可深入参与开源框架和先进算法,个人成长空间大
  • 线上性能优化往往涉及复杂问题排查和调试,工作强度可能较大

缺点 / 挑战

  • 技术难度高,需要同时掌握系统、算法和工程,对综合能力要求较高
  • 大模型推理优化迭代快,需持续跟进学术界和工业界最新进展,学习压力大
  • 适合对AI Infra有浓厚兴趣、享受底层性能优化挑战、具备较强工程和算法能力的工程师

角色解读

  • 技术深度方向:成为大模型推理优化专家,深入GPU底层和系统架构,主导性能突破
  • 技术广度方向:扩展到训练优化、分布式系统、全栈AI Infra,成为AI基础设施架构师
  • 管理方向:带领推理优化团队,负责大规模集群的推理系统设计和技术决策
  • 负责优化大模型在GPU上的推理性能,降低首字延迟、提升吞吐量,确保线上服务高效稳定
  • 研究和应用vLLM、TensorRT-LLM等推理加速框架,针对B站业务场景进行定制开发和适配
  • 开发高性能CUDA算子,利用Triton、FlashAttention等技术加速Transformer底层计算
  • 探索KV Cache优化、量化、剪枝等算法,与算法团队协作完成模型压缩和端侧部署
  • 精通C++和Python,有扎实的工程能力,熟悉Linux开发环境
  • 深刻理解Transformer架构和LLM推理原理,熟悉自回归解码的计算瓶颈
  • 扎实的GPU编程基础,熟练掌握CUDA,有算子开发经验
  • 熟悉PyTorch等深度学习框架底层机制,有模型导出经验者优先

申请策略

  • 关注B站AI技术博客或开源项目,了解其技术栈和业务方向,面试时展示针对性思考
  • 可以提前准备一个端到端推理优化的案例,体现从问题分析到方案落地的完整思路
  • 突出GPU编程和CUDA算子开发经验,展示具体优化成果(如加速比、显存降低等)
  • 强调对Transformer和LLM推理原理的深入理解,如有相关项目或论文可重点描述
  • 展示使用主流推理框架(vLLM、TensorRT-LLM等)的实战经验,以及针对特定场景的定制化工作
  • 系统学习CUDA编程和GPU架构,动手编写一些优化算子
  • 深入阅读vLLM、FlashAttention等开源项目的源码,理解其设计思路
  • 了解分布式推理(张量并行、流水线并行)的原理和实践

面试指南

  • 对于原理类问题:先说清楚基础概念,再指出关键瓶颈,最后提出你的优化方案,可结合论文或项目经验
  • 对于对比类问题:列出各自的核心机制、适用场景、性能特点,给出选择建议
  • 对于场景题:明确输入输出,分析约束条件,分步骤提出方案,并考虑权衡(如精度与速度)
  • 请解释一下Transformer自回归解码的计算瓶颈,你有哪些优化思路?
  • 你用过哪些推理加速框架?请比较vLLM和TensorRT-LLM的优缺点
  • CUDA中Shared Memory和Global Memory的区别?如何优化访存?
  • 如何优化KV Cache?PagedAttention的原理是什么?
  • 给定一个具体模型,如何设计量化方案(INT8/INT4)并评估精度损失?

匹配度报告

69
综合匹配度

AI大厂前沿技术岗,发展性极强,薪资可观但WLB一般。

适合人群
最适合追求技术成长和前沿突破的工程师,对薪资和WLB有一定妥协空间。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活50
使命价值60

薪资福利匹配

75中等

该职位薪资未披露,但基于B站上市大厂和岗位稀缺性,预估薪资具有竞争力,但未提及具体福利,补偿性动机满足程度中等偏上。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

职位涉及大模型推理前沿技术,推动算法落地,能深度参与核心系统,发展空间巨大。

技术前沿前沿/新兴技术
技术栈CUDA、PyTorch、LLM、vLLM、TensorRT-LLM、FlashAttention、量化、分布式推理
业务类型ambiguous

工作生活匹配

50较低

职位工作地点为上海现场办公,未提及弹性或远程,且互联网大厂推理优化岗可能涉及高强度攻坚,WLB一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

60中等

B站作为内容平台,其AI技术提升用户体验有一定社会价值,但非直接社会使命,意义感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • AI数据基建工程师

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 海外钱包产品经理

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 销售管理(销售BP)

    哔哩哔哩 · 上海市
    AI 估算 · 25k-40k
  • 大模型推理平台开发工程师

    哔哩哔哩 · 上海市
    AI 估算 · 40k-60k
  • 商业化-行业运营(本土美妆方向)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • 支付架构工程师-【电商】

    快手 · 北京市
    AI 估算 · 35k-65k
  • Java开发工程师(B端商家)-【电商】

    快手 · 杭州市
    AI 估算 · 25k-45k
  • 前端开发工程师

    中国平安 · 深圳市
    AI 估算 · 20k-40k
  • 前端开发高级工程师(web)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • 后端开发高级工程师

    中国平安 · 深圳市
    AI 估算 · 25k-40k

哔哩哔哩 的其他在招职位

  • AI数据基建工程师

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 海外钱包产品经理

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 销售管理(销售BP)

    哔哩哔哩 · 上海市
    AI 估算 · 25k-40k
  • 大模型推理平台开发工程师

    哔哩哔哩 · 上海市
    AI 估算 · 40k-60k
  • 商业化-行业运营(本土美妆方向)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • 支付架构工程师-【电商】

    快手 · 北京市
    AI 估算 · 35k-65k
  • Java开发工程师(B端商家)-【电商】

    快手 · 杭州市
    AI 估算 · 25k-45k
  • 前端开发工程师

    中国平安 · 深圳市
    AI 估算 · 20k-40k
  • 前端开发高级工程师(web)

    中国平安 · 深圳市
    AI 估算 · 20k-35k
  • 后端开发高级工程师

    中国平安 · 深圳市
    AI 估算 · 25k-40k