小米的大模型推理优化工程师薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

大模型推理优化工程师的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

小米的大模型推理优化工程师有什么任职要求？

该职位要求本科学历及中级经验工作经验。

小米

大模型推理优化工程师

立即应聘

大模型推理优化工程师

发布于大约 16 小时前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

高性能计算

模型蒸馏

深度学习推理

模型量化

AIGC

vLLM

TensorRT-LLM

AI 估算 · 25k–45k

大模型推理优化属于高需求技术方向，小米作为大厂薪资具有竞争力，综合北京市场水平估算。

职位详情

关于这个职位

作为小米的大模型推理优化工程师，你将专注于AIGC模型的推理加速研究，涵盖模型蒸馏、量化和剪枝等技术

你将负责构建高性能推理引擎，优化计算图和内存管理，打造低延迟高吞吐的线上服务

同时需要跟进业界Infra技术前沿，推动技术预研落地，直接助力小米AI产品的性能提升

最低要求

本科及以上学历，计算机相关专业优先，熟练掌握C++/Python，精通数据结构与算法，并有并发编程基础

熟练使用PyTorch/TensorFlow或其他深度学习框架，熟练掌握深度学习性能加速技术包括但不限于算子性能优化，通信优化等

具有AIGC（VLM、Diffusion）模型训练/推理优化经验，熟悉TensorRT-LLM、vLLM、LightX2V等推理效率优化工具

熟悉大模型蒸馏、量化、剪枝等常用压缩技术，熟练使用常见推理加速工具，如TensorRT、vLLM等

积极主动有热情，具备较强的沟通能力以及优秀的团队协作能力

工作职责

负责图像/视频/多模态等方向AIGC大模型推理加速研究，包括模型蒸馏、模型量化、模型剪枝、推理加速框架移植等

实现高性能LLM/VLM/AIGC模型推理引擎，优化计算图编译、动态Batching及KV Cache管理，打造极致低延迟与高吞吐的线上服务架构

持续跟进业界最新的Infra技术（如FlashAttention演进、高效通信库、FP8/INT8量化、稀疏蒸馏等训练部署方案），配合实际业务驱动技术预研并转化为生产力

AI 洞察

优缺点分析

优点

身处大模型和AIGC的热门赛道，技术成长空间大，能接触业界最前沿的推理加速技术
小米平台资源丰富，业务场景多样，研究成果能快速落地产生实际影响
推理优化对底层系统理解要求高，需要持续学习最新论文和工具
技术迭代迅速，需要保持高度热情和自驱力跟进业界动态

缺点 / 挑战

团队技术氛围浓厚，有挑战性，适合追求技术深度的工程师
线上服务对延迟和吞吐要求严苛，可能面临较大的性能压力
适合对底层性能优化有强烈兴趣、善于动手实践、享受技术挑战的深度学习工程师

角色解读

深耕推理优化领域，成为Infra方向的技术专家，主导核心引擎架构设计
横向拓展至AI平台、分布式训练等技术方向，向系统架构师或技术Leader发展
结合业务需求，推动前沿技术产品化，积累跨团队影响力
负责AIGC大模型的推理加速，包括模型蒸馏、量化、剪枝等压缩技术的研发与应用
实现高性能推理引擎，优化计算图编译、动态Batching及KV Cache管理，降低延迟提升吞吐
跟踪前沿Infra技术如FlashAttention、FP8量化等，将新技术落地到实际业务中
与算法团队协作，确保推理方案在线上服务中的高效稳定运行
扎实的C++/Python编程能力，精通数据结构和算法，具备并发编程基础
熟练使用PyTorch或TensorFlow等框架，掌握算子优化、通信优化等加速技术
熟悉AIGC模型（VLM、Diffusion）的训练/推理流程，熟练使用TensorRT-LLM、vLLM等工具
了解模型压缩技术（蒸馏、量化、剪枝）并有实际优化经验

申请策略

面试前了解小米AI产品（如小爱同学、相机AI）的业务背景，思考推理优化如何助力
准备一个完整的推理优化案例，从问题分析、方案设计到效果评估，展示系统化思维
突出模型压缩或推理加速的项目经验，如使用TensorRT-LLM或vLLM优化具体模型的过程和收益
展示C++/Python高性能编程能力，如优化算子、多线程编程等
强调对AIGC模型（如Diffusion、VLM）的理解和实践，尤其是部署优化经验
如有开源贡献或技术博客，体现技术热情和钻研能力
深入学习TensorRT-LLM、vLLM等框架的源码，掌握其架构和优化思路
动手实践模型量化（如FP8/INT4）和蒸馏技术，在公开数据集上进行实验

面试指南

STAR法则：情境-任务-行动-结果，突出量化细节和性能提升数据
原理+实践结合：先讲解背景原理，再结合具体项目说明是如何应用和优化的
对比分析：比较不同优化方案的优劣，展现技术判断力
请介绍一个你做的模型量化或推理加速项目，遇到了哪些挑战？如何解决？
TensorRT-LLM中动态Batching和KV Cache管理的原理是什么？如何优化？
如何对大模型进行蒸馏？蒸馏和量化的区别与联系？
在C++层面，你如何优化一个算子的性能？请举例说明
如何看待FlashAttention？它在推理加速中的作用是什么？

职位点评

综合评分

前沿大模型推理优化岗，技术深度强、成长快，但办公模式传统、WLB不确定。

更适合这类人

最适合追求技术前沿和快速成长的求职者，能接受现场办公和可能的快节奏工作。

表现最好

成长发展

相对薄弱

工作生活

薪资福利65

成长发展92

工作生活40

使命价值70

薪资福利

65中等

薪资未明确但大厂背景提供竞争力薪酬和稳定福利，但JD未提及具体福利项。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

92较高

技术栈前沿（大模型推理加速），涉及多种先进技术，成长空间极大，但JD未明确培训或晋升路径。

技术前沿前沿/新兴技术

技术栈C++、Python、PyTorch、TensorRT-LLM、vLLM、FlashAttention、FP8量化、模型蒸馏、模型量化、AIGC

业务类型ambiguous

工作生活

40较低

仅现场办公，未提及弹性或远程，北京通勤压力大，且无WLB相关信号。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

70中等

大模型赛道高增长，技术创新性强，但社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

小米

大模型推理优化工程师

立即应聘

大模型推理优化工程师

发布于大约 16 小时前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

软件工程

PyTorch

高性能计算

模型蒸馏

深度学习推理

模型量化

AIGC

vLLM

TensorRT-LLM

AI 估算 · 25k–45k

大模型推理优化属于高需求技术方向，小米作为大厂薪资具有竞争力，综合北京市场水平估算。

职位详情

关于这个职位

作为小米的大模型推理优化工程师，你将专注于AIGC模型的推理加速研究，涵盖模型蒸馏、量化和剪枝等技术

你将负责构建高性能推理引擎，优化计算图和内存管理，打造低延迟高吞吐的线上服务

同时需要跟进业界Infra技术前沿，推动技术预研落地，直接助力小米AI产品的性能提升

最低要求

本科及以上学历，计算机相关专业优先，熟练掌握C++/Python，精通数据结构与算法，并有并发编程基础

熟练使用PyTorch/TensorFlow或其他深度学习框架，熟练掌握深度学习性能加速技术包括但不限于算子性能优化，通信优化等

具有AIGC（VLM、Diffusion）模型训练/推理优化经验，熟悉TensorRT-LLM、vLLM、LightX2V等推理效率优化工具

熟悉大模型蒸馏、量化、剪枝等常用压缩技术，熟练使用常见推理加速工具，如TensorRT、vLLM等

积极主动有热情，具备较强的沟通能力以及优秀的团队协作能力

工作职责

负责图像/视频/多模态等方向AIGC大模型推理加速研究，包括模型蒸馏、模型量化、模型剪枝、推理加速框架移植等

实现高性能LLM/VLM/AIGC模型推理引擎，优化计算图编译、动态Batching及KV Cache管理，打造极致低延迟与高吞吐的线上服务架构

持续跟进业界最新的Infra技术（如FlashAttention演进、高效通信库、FP8/INT8量化、稀疏蒸馏等训练部署方案），配合实际业务驱动技术预研并转化为生产力

AI 洞察

优缺点分析

优点

身处大模型和AIGC的热门赛道，技术成长空间大，能接触业界最前沿的推理加速技术
小米平台资源丰富，业务场景多样，研究成果能快速落地产生实际影响
推理优化对底层系统理解要求高，需要持续学习最新论文和工具
技术迭代迅速，需要保持高度热情和自驱力跟进业界动态

缺点 / 挑战

团队技术氛围浓厚，有挑战性，适合追求技术深度的工程师
线上服务对延迟和吞吐要求严苛，可能面临较大的性能压力
适合对底层性能优化有强烈兴趣、善于动手实践、享受技术挑战的深度学习工程师

角色解读

深耕推理优化领域，成为Infra方向的技术专家，主导核心引擎架构设计
横向拓展至AI平台、分布式训练等技术方向，向系统架构师或技术Leader发展
结合业务需求，推动前沿技术产品化，积累跨团队影响力
负责AIGC大模型的推理加速，包括模型蒸馏、量化、剪枝等压缩技术的研发与应用
实现高性能推理引擎，优化计算图编译、动态Batching及KV Cache管理，降低延迟提升吞吐
跟踪前沿Infra技术如FlashAttention、FP8量化等，将新技术落地到实际业务中
与算法团队协作，确保推理方案在线上服务中的高效稳定运行
扎实的C++/Python编程能力，精通数据结构和算法，具备并发编程基础
熟练使用PyTorch或TensorFlow等框架，掌握算子优化、通信优化等加速技术
熟悉AIGC模型（VLM、Diffusion）的训练/推理流程，熟练使用TensorRT-LLM、vLLM等工具
了解模型压缩技术（蒸馏、量化、剪枝）并有实际优化经验

申请策略

面试前了解小米AI产品（如小爱同学、相机AI）的业务背景，思考推理优化如何助力
准备一个完整的推理优化案例，从问题分析、方案设计到效果评估，展示系统化思维
突出模型压缩或推理加速的项目经验，如使用TensorRT-LLM或vLLM优化具体模型的过程和收益
展示C++/Python高性能编程能力，如优化算子、多线程编程等
强调对AIGC模型（如Diffusion、VLM）的理解和实践，尤其是部署优化经验
如有开源贡献或技术博客，体现技术热情和钻研能力
深入学习TensorRT-LLM、vLLM等框架的源码，掌握其架构和优化思路
动手实践模型量化（如FP8/INT4）和蒸馏技术，在公开数据集上进行实验

面试指南

STAR法则：情境-任务-行动-结果，突出量化细节和性能提升数据
原理+实践结合：先讲解背景原理，再结合具体项目说明是如何应用和优化的
对比分析：比较不同优化方案的优劣，展现技术判断力
请介绍一个你做的模型量化或推理加速项目，遇到了哪些挑战？如何解决？
TensorRT-LLM中动态Batching和KV Cache管理的原理是什么？如何优化？
如何对大模型进行蒸馏？蒸馏和量化的区别与联系？
在C++层面，你如何优化一个算子的性能？请举例说明
如何看待FlashAttention？它在推理加速中的作用是什么？

职位点评

综合评分

前沿大模型推理优化岗，技术深度强、成长快，但办公模式传统、WLB不确定。

更适合这类人

最适合追求技术前沿和快速成长的求职者，能接受现场办公和可能的快节奏工作。

表现最好

成长发展

相对薄弱

工作生活

薪资福利65

成长发展92

工作生活40

使命价值70

薪资福利

65中等

薪资未明确但大厂背景提供竞争力薪酬和稳定福利，但JD未提及具体福利项。

薪资信号未披露（AI估算：25K-45K/月）

成长发展

92较高

技术栈前沿（大模型推理加速），涉及多种先进技术，成长空间极大，但JD未明确培训或晋升路径。

技术前沿前沿/新兴技术

技术栈C++、Python、PyTorch、TensorRT-LLM、vLLM、FlashAttention、FP8量化、模型蒸馏、模型量化、AIGC

业务类型ambiguous

工作生活

40较低

仅现场办公，未提及弹性或远程，北京通勤压力大，且无WLB相关信号。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

70中等

大模型赛道高增长，技术创新性强，但社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型推理优化工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型推理优化工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

小米 的其他在招职位

高级Android工程师

车身内外饰试验验证工程师

高压系统测试工程师-实习-2027届

端侧大模型部署优化工程师-活水专用

高级/资深操作系统架构专家

小米 的其他在招职位

高级Android工程师

车身内外饰试验验证工程师

高压系统测试工程师-实习-2027届

端侧大模型部署优化工程师-活水专用

高级/资深操作系统架构专家

小米的其他在招职位

小米的其他在招职位