Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Xiaomi logo
小米
大模型推理优化工程师
立即应聘

大模型推理优化工程师

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
软件工程
PyTorch
高性能计算
模型蒸馏
深度学习推理
模型量化
AIGC
vLLM
TensorRT-LLM

AI 估算 · 25k–45k

大模型推理优化属于高需求技术方向,小米作为大厂薪资具有竞争力,综合北京市场水平估算。

职位详情

关于这个职位

作为小米的大模型推理优化工程师,你将专注于AIGC模型的推理加速研究,涵盖模型蒸馏、量化和剪枝等技术

你将负责构建高性能推理引擎,优化计算图和内存管理,打造低延迟高吞吐的线上服务
同时需要跟进业界Infra技术前沿,推动技术预研落地,直接助力小米AI产品的性能提升

最低要求

本科及以上学历,计算机相关专业优先,熟练掌握C++/Python,精通数据结构与算法,并有并发编程基础

熟练使用PyTorch/TensorFlow或其他深度学习框架,熟练掌握深度学习性能加速技术包括但不限于算子性能优化,通信优化等
具有AIGC(VLM、Diffusion)模型训练/推理优化经验,熟悉TensorRT-LLM、vLLM、LightX2V等推理效率优化工具
熟悉大模型蒸馏、量化、剪枝等常用压缩技术,熟练使用常见推理加速工具,如TensorRT、vLLM等
积极主动有热情,具备较强的沟通能力以及优秀的团队协作能力

工作职责

负责图像/视频/多模态等方向AIGC大模型推理加速研究,包括模型蒸馏、模型量化、模型剪枝、推理加速框架移植等

实现高性能LLM/VLM/AIGC模型推理引擎,优化计算图编译、动态Batching及KV Cache管理,打造极致低延迟与高吞吐的线上服务架构
持续跟进业界最新的Infra技术(如FlashAttention演进、高效通信库、FP8/INT8量化、稀疏蒸馏等训练部署方案),配合实际业务驱动技术预研并转化为生产力

AI 洞察

优缺点分析

优点

  • 身处大模型和AIGC的热门赛道,技术成长空间大,能接触业界最前沿的推理加速技术
  • 小米平台资源丰富,业务场景多样,研究成果能快速落地产生实际影响
  • 推理优化对底层系统理解要求高,需要持续学习最新论文和工具
  • 技术迭代迅速,需要保持高度热情和自驱力跟进业界动态

缺点 / 挑战

  • 团队技术氛围浓厚,有挑战性,适合追求技术深度的工程师
  • 线上服务对延迟和吞吐要求严苛,可能面临较大的性能压力
  • 适合对底层性能优化有强烈兴趣、善于动手实践、享受技术挑战的深度学习工程师

角色解读

  • 深耕推理优化领域,成为Infra方向的技术专家,主导核心引擎架构设计
  • 横向拓展至AI平台、分布式训练等技术方向,向系统架构师或技术Leader发展
  • 结合业务需求,推动前沿技术产品化,积累跨团队影响力
  • 负责AIGC大模型的推理加速,包括模型蒸馏、量化、剪枝等压缩技术的研发与应用
  • 实现高性能推理引擎,优化计算图编译、动态Batching及KV Cache管理,降低延迟提升吞吐
  • 跟踪前沿Infra技术如FlashAttention、FP8量化等,将新技术落地到实际业务中
  • 与算法团队协作,确保推理方案在线上服务中的高效稳定运行
  • 扎实的C++/Python编程能力,精通数据结构和算法,具备并发编程基础
  • 熟练使用PyTorch或TensorFlow等框架,掌握算子优化、通信优化等加速技术
  • 熟悉AIGC模型(VLM、Diffusion)的训练/推理流程,熟练使用TensorRT-LLM、vLLM等工具
  • 了解模型压缩技术(蒸馏、量化、剪枝)并有实际优化经验

申请策略

  • 面试前了解小米AI产品(如小爱同学、相机AI)的业务背景,思考推理优化如何助力
  • 准备一个完整的推理优化案例,从问题分析、方案设计到效果评估,展示系统化思维
  • 突出模型压缩或推理加速的项目经验,如使用TensorRT-LLM或vLLM优化具体模型的过程和收益
  • 展示C++/Python高性能编程能力,如优化算子、多线程编程等
  • 强调对AIGC模型(如Diffusion、VLM)的理解和实践,尤其是部署优化经验
  • 如有开源贡献或技术博客,体现技术热情和钻研能力
  • 深入学习TensorRT-LLM、vLLM等框架的源码,掌握其架构和优化思路
  • 动手实践模型量化(如FP8/INT4)和蒸馏技术,在公开数据集上进行实验

面试指南

  • STAR法则:情境-任务-行动-结果,突出量化细节和性能提升数据
  • 原理+实践结合:先讲解背景原理,再结合具体项目说明是如何应用和优化的
  • 对比分析:比较不同优化方案的优劣,展现技术判断力
  • 请介绍一个你做的模型量化或推理加速项目,遇到了哪些挑战?如何解决?
  • TensorRT-LLM中动态Batching和KV Cache管理的原理是什么?如何优化?
  • 如何对大模型进行蒸馏?蒸馏和量化的区别与联系?
  • 在C++层面,你如何优化一个算子的性能?请举例说明
  • 如何看待FlashAttention?它在推理加速中的作用是什么?

职位点评

67
综合评分

前沿大模型推理优化岗,技术深度强、成长快,但办公模式传统、WLB不确定。

更适合这类人
最适合追求技术前沿和快速成长的求职者,能接受现场办公和可能的快节奏工作。
表现最好
成长发展
相对薄弱
工作生活
薪资福利65
成长发展92
工作生活40
使命价值70

薪资福利

65中等

薪资未明确但大厂背景提供竞争力薪酬和稳定福利,但JD未提及具体福利项。

薪资信号未披露(AI估算:25K-45K/月)

成长发展

92较高

技术栈前沿(大模型推理加速),涉及多种先进技术,成长空间极大,但JD未明确培训或晋升路径。

技术前沿前沿/新兴技术
技术栈C++、Python、PyTorch、TensorRT-LLM、vLLM、FlashAttention、FP8量化、模型蒸馏、模型量化、AIGC
业务类型ambiguous

工作生活

40较低

仅现场办公,未提及弹性或远程,北京通勤压力大,且无WLB相关信号。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值

70中等

大模型赛道高增长,技术创新性强,但社会影响力中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小米 的其他在招职位

  • 高级Android工程师

    小米 · 南京市
    AI 估算 · 20k-35k
  • 车身内外饰试验验证工程师

    小米 · 上海市
    AI 估算 · 15k-25k
  • 高压系统测试工程师-实习-2027届

    小米 · 上海市
    AI 估算 · 4k-6k
  • 端侧大模型部署优化工程师-活水专用

    小米 · 北京市
    AI 估算 · 25k-45k
  • 高级/资深操作系统架构专家

    小米 · 北京市
    AI 估算 · 50k-80k

小米 的其他在招职位

  • 高级Android工程师

    小米 · 南京市
    AI 估算 · 20k-35k
  • 车身内外饰试验验证工程师

    小米 · 上海市
    AI 估算 · 15k-25k
  • 高压系统测试工程师-实习-2027届

    小米 · 上海市
    AI 估算 · 4k-6k
  • 端侧大模型部署优化工程师-活水专用

    小米 · 北京市
    AI 估算 · 25k-45k
  • 高级/资深操作系统架构专家

    小米 · 北京市
    AI 估算 · 50k-80k