Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Xiaomi logo
小米
端侧大模型部署优化工程师-活水专用
立即应聘

端侧大模型部署优化工程师-活水专用

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
软件工程
CUDA
模型量化
MoE
Flashattention
Kv Cache
投机解码
大模型推理优化
芯片协同设计

AI 估算 · 25k–45k

小米是知名大厂,端侧大模型优化属于前沿技术方向,人才稀缺,薪资有竞争力。中级工程师在北京通常25-45K/月。

职位详情

关于这个职位

该职位专注于在端侧设备(如手机、IoT设备)上部署和优化大型语言模型,涉及模型量化、推理加速、芯片协同设计等前沿技术

你将与顶尖团队合作,研究SOTA算法并落地到产品中,推动AI在终端设备上的高效运行
适合对深度学习推理优化和嵌入式系统有浓厚兴趣的技术专家

最低要求

具备扎实的算法与系统基础,对复杂系统的性能瓶颈具有较强分析能力,愿意深入到实现细节解决“难而重要”的问题

至少在以下一个或多个方向具备良好基础或实践经验:- 大模型推理与优化(Attention、KV Cache、并行推理等)- 模型压缩与量化(INT8 / INT4 / 更低比特)- 高性能计算、并行计算或系统性能优化- 编译器、算子优化或 AI 加速器相关经验
具备良好的代码能力(C++ / Python / CUDA 等至少一种),能够独立完成实验、分析性能数据并清晰总结结论

工作职责

研究并复现业界与学术界 SOTA 的大模型推理优化技术,包括但不限于极低比特量化、FlashAttention、投机解码(Speculative Decoding)、KV Cache 优化等关键方向,并在真实端侧场景中进行性能评估与对比分析

面向端侧算力与内存受限场景,探索高效的大模型结构与推理策略,如端侧友好的 MoE 方案、稀疏与线性注意力、长上下文推理优化等,推动模型在性能、效果与资源消耗之间的最优权衡
参与大模型与芯片协同设计(Model–Chip Co-design),从模型结构、算子设计到推理系统层面进行联合优化,深入理解端侧 NPU / GPU / CPU 架构对模型推理性能的影响
与模型、系统、芯片团队深度协作,将研究成果转化为可落地的工程方案,并有机会参与核心模块的设计与实现,产生可量化的性能提升结果

优先资格

有TFlite (Micro),NCNN,SNPE/QNN,EAI,NeuroPilot等移动端深度学习框架开发经验者优先

熟悉神经网络模型的定点优化,熟悉各类嵌入式平台芯片架构及底层指令,有ARM Neon、Hexagon DSP、Cadence Hifi3/5、RISC-V等平台的算子开发及算法调优经验者优先
有相关领域高质量会议/期刊论文,或深度参与过开源深度学习框架的开发并有相应贡献者优先

AI 洞察

优缺点分析

优点

  • 前沿技术方向,端侧大模型是AI落地的关键趋势,行业前景广阔
  • 大厂资源充足,有机会与学术界、工业界顶尖团队合作,产出高水平成果
  • 技术难度高,需要同时掌握算法、系统和硬件知识,学习曲线陡峭
  • 端侧资源极度受限,优化工作可能需要反复迭代,工作强度较大
  • 适合对深度学习推理优化有浓厚兴趣、具备扎实系统能力、喜欢解决底层难题的工程师

缺点 / 挑战

  • 小米提供丰富的端侧设备场景和芯片协同机会,技术挑战大,成长快
  • 行业内同类人才稀缺,竞争压力大,需要持续跟踪最新论文和技术

角色解读

  • 技术深耕:成为端侧AI推理优化专家,深入底层硬件和系统优化
  • 横向拓展:向模型架构设计或芯片设计方向延伸,参与更上游的决策
  • 项目负责人:主导大型端侧AI项目,从研究到落地的全流程管理
  • 研究和复现最新的端侧大模型推理优化技术,如量化、FlashAttention、投机解码等
  • 在真实端侧设备上评估和对比不同优化方案,解决内存和算力受限问题
  • 与芯片团队协作,进行模型与硬件的联合设计,优化算子执行效率
  • 将研究成果转化为可落地的工程代码,提升产品性能
  • 扎实的算法和系统性能分析能力,能定位并解决复杂瓶颈
  • 深入了解大模型推理优化(Attention、KV Cache)或模型压缩(量化)
  • 熟练使用C++/Python/CUDA进行实验和性能分析
  • 熟悉移动端推理框架(如TFLite、NCNN)或硬件指令集(ARM Neon、DSP)者优先

申请策略

  • 在面试中展示对端侧推理挑战的理解,例如如何平衡模型精度与延迟
  • 了解小米的端侧AI生态,结合MIUI或IoT设备思考优化场景
  • 突出大模型推理或模型压缩相关项目经验,尤其是端侧部署优化
  • 详细描述在性能分析、算子优化或量化方面的具体成果和量化提升
  • 强调C++/Python/CUDA编程能力和独立解决问题的案例
  • 如有相关论文或开源贡献(如贡献过TensorFlow Lite、ONNX Runtime等),务必醒目列出
  • 复习FlashAttention、KV Cache、量化算法(如GPTQ、AWQ)的原理和实现
  • 练习使用性能分析工具(如perf、nsys)定位瓶颈,并动手优化一个端侧模型

面试指南

  • 对于技术原理类问题:先阐述核心思想,再说明关键步骤或公式,最后指出优劣势和适用场景
  • 对于优化经验类问题:用STAR法则描述问题、目标、行动和量化结果,突出分析和调试过程
  • 请解释FlashAttention的原理以及相比标准Attention的性能提升原因
  • 如何在资源受限的端侧设备上实现高效的大模型推理?请列举技术方案
  • 描述一次你优化模型推理性能的经历,包括遇到的瓶颈和解决方案
  • 你对MoE(混合专家模型)在端侧的应用前景怎么看?有哪些挑战?
  • 如何量化一个算子在NPU上的执行效率?你会从哪些层面优化?
  • 复习大模型推理优化的经典论文(如FlashAttention、SmoothQuant),理解其核心创新点

职位点评

66
综合评分

小米端侧大模型部署优化岗,技术前沿,发展空间大,但工作强度高,WLB一般。

更适合这类人
适合追求技术成长、喜欢挑战前沿难题、能接受高强度工作的工程师。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展90
工作生活40
使命价值65

薪资福利

70中等

小米作为上市大厂,薪资福利有一定竞争力,但具体薪资未明示,且职位为'活水专用'(内部转岗),可能涉及内部薪资标准。

薪资信号未披露(AI估算:25K-45K/月)

成长发展

90较高

职位涉及端侧大模型推理优化等前沿技术,与芯片协同设计,成长空间巨大。但JD未明确提及晋升路径。

技术前沿前沿/新兴技术
技术栈大模型推理优化、模型量化、FlashAttention、投机解码、KV Cache、MoE、芯片协同设计、CUDA
业务类型profit_center

工作生活

40较低

仅现场办公,位于北京,未提及弹性工作或WLB,且大厂算法岗通常工作强度较高。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

65中等

端侧AI落地是重要方向,能提升消费者体验,具有社会价值;但JD未强调使命感。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小米 的其他在招职位

  • 高级Android工程师

    小米 · 南京市
    AI 估算 · 20k-35k
  • 车身内外饰试验验证工程师

    小米 · 上海市
    AI 估算 · 15k-25k
  • 高压系统测试工程师-实习-2027届

    小米 · 上海市
    AI 估算 · 4k-6k
  • 高级/资深操作系统架构专家

    小米 · 北京市
    AI 估算 · 50k-80k
  • 能耗优化算法工程师(AI实验室)-2027届

    小米 · 北京市
    AI 估算 · 20k-30k

小米 的其他在招职位

  • 高级Android工程师

    小米 · 南京市
    AI 估算 · 20k-35k
  • 车身内外饰试验验证工程师

    小米 · 上海市
    AI 估算 · 15k-25k
  • 高压系统测试工程师-实习-2027届

    小米 · 上海市
    AI 估算 · 4k-6k
  • 高级/资深操作系统架构专家

    小米 · 北京市
    AI 估算 · 50k-80k
  • 能耗优化算法工程师(AI实验室)-2027届

    小米 · 北京市
    AI 估算 · 20k-30k