Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Xiaomi logo
小米
顶尖应届-大模型高性能算子研发工程师--基础技术平台
立即应聘

顶尖应届-大模型高性能算子研发工程师--基础技术平台

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
无经验要求
全职员工
仅现场办公
硕士
研究与开发 (研发)
GPU
PyTorch
高性能计算
CUDA
模型并行
大模型
编译优化
算子开发
Tensorcore

AI 估算 · 25k–35k

大模型研发岗薪酬较高,北京一线大厂,应届生薪资有竞争力。

职位详情

关于这个职位

作为小米基础技术平台的大模型高性能算子研发工程师,你将专注于打造业界领先的高性能训练与推理引擎

工作内容涉及编译优化、模型并行、算子开发、低精度计算等核心GPU优化技术,直接支持大模型的部署与性能提升
该岗位适合对GPU计算和深度学习有扎实基础,渴望挑战性能极限的应届硕士/博士

最低要求

硕士及以上学历,计算机、软件工程、数学等相关专业,具备扎实计算机理论基础和丰富编程经验,在深度学习领域有深入研究与实践

精通 Python,熟练掌握至少一种深度学习框架(如 PyTorch),理解深度学习和transformer系列算法,有丰富模型开发与调优经验,能独立搭建复杂模型并优化性能
熟悉主流的并行编程以及性能优化技术,熟悉CUDA和TensorCore编程

工作职责

通过编译优化、模型并行优化、图融合、高性能算子开发、低精度计算、Memory复用、Cache优化、高并发服务请求优化等技术,打造业界领先的高性能训推引擎

设计和开发高性能算子库,研究最新的GPU计算技术和优化方法,以充分利用GPU的并行计算能力,支持大模型推理优化和部署

优先资格

有相关高性能优化经验(nsys/ncu)优先

熟悉flashattention,TransformerEngine, flashinfer等算子库,有使用triton/tilelang等做高性能算子开发经验优先

AI 洞察

优缺点分析

优点

  • 接触大模型最核心的性能优化技术,技能积累硬核稀缺
  • 小米提供海量GPU资源及真实业务场景,有大规模实践机会
  • 大模型赛道高速发展,职业前景广阔,跳槽竞争力强
  • 技术门槛高,需要扎实的并行计算和系统知识,学习曲线陡峭
  • 工作强度可能较大,需要紧跟业界最新优化方法并快速迭代
  • 对数学和算法理解要求高,不仅需要工程能力,还要有算法洞察
  • 适合对GPU高性能计算有浓厚兴趣、享受榨干硬件性能的技术型应届生,尤其是具备CUDA/系统优化背景的硕士或博士

缺点 / 挑战

暂无明显挑战项

角色解读

  • 成为大模型高性能计算专家,主导AI基础设施核心组件的研发
  • 向系统架构师方向发展,设计下一代训推引擎架构
  • 横向拓展至深度学习编译器、AI芯片适配等前沿领域
  • 负责大模型训练和推理的性能优化,包括编译优化、模型并行、图融合等
  • 设计和开发高性能GPU算子库,利用CUDA和TensorCore提升计算效率
  • 研究低精度计算、内存复用、缓存优化等技术,减少推理延迟和成本
  • 精通Python和PyTorch,能独立搭建和调优深度学习模型
  • 深入理解并行编程和GPU架构,熟悉CUDA编程及性能分析工具(nsys/ncu)
  • 了解Transformer系列算法及常见算子库(FlashAttention、TransformerEngine等)

申请策略

  • 在简历中用量化数据体现性能提升(例如推理延迟降低X%),增强说服力
  • 突出CUDA编程项目经验,尤其是使用nsys/ncu进行性能分析优化的案例
  • 展示在PyTorch等框架下进行大模型训练或推理优化的成果
  • 强调参与过与FlashAttention、Triton等算子库相关的开发或研究
  • 系统学习CUDA编程和TensorCore使用,可参考NVIDIA官方文档
  • 熟悉TensorRT、vLLM等推理加速框架,了解编译优化基本原理
  • 动手复现一些高性能算子的实现(如FlashAttention),加深理解

面试指南

  • 方法论:从分析瓶颈(Profiling)→ 定位热点 → 选择优化技术(算子融合/低精度/SIMT)→ 验证效果,展示系统化思维
  • 案例法:准备一个具体的优化案例,清晰描述背景→方法→量化结果,突出你的思考深度
  • 请解释FlashAttention的原理及相比标准Attention的优势
  • 如何优化一个PyTorch模型在GPU上的推理性能?请从算子融合、内存布局等角度阐述
  • 描述一次你使用CUDA进行性能优化的经历,遇到了哪些瓶颈,如何解决?
  • Transformer模型中哪些部分最耗时?如何针对性地优化?
  • 了解哪些并行策略(数据并行、模型并行、流水线并行)?在大模型训练中如何选择?
  • 复习GPU架构(SM、warp、shared memory)和CUDA编程模型,理解memory hierarchy

匹配度报告

71
综合匹配度

大模型高性能计算研发岗,前沿技术栈,高成长性,但工作强度大,WLB一般。

适合人群
最适合追求技术成长和职业发展的应届生,愿意投入高强度工作换取前沿技能积累。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活50
使命价值70

薪资福利匹配

75中等

虽然JD未明确薪资范围,但大模型高性能计算岗位作为热门方向,小米作为大厂通常提供有竞争力的薪酬和福利,对补偿性动机有较好满足。

薪资信号未披露(AI估算:25K-35K/月)

成长发展匹配

90较高

该岗位直接涉及大模型最前沿的性能优化技术(如FlashAttention、Triton),工作内容技术含量高,成长空间巨大,充分满足发展性动机。

技术前沿前沿/新兴技术
技术栈CUDA、TensorCore、PyTorch、大模型、编译优化、FlashAttention、Triton
业务类型profit_center

工作生活匹配

50较低

未提及远程或弹性工作安排,现场办公模式,且大模型研发通常工作强度大,生活平衡可能面临挑战。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型技术正处于高速发展期,属于科技前沿,但该岗位主要为技术支撑角色,对社会价值的直接影响不明显,意义感中等偏上。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小米 的其他在招职位

  • 顶尖应届-Linux内核优化研究员(存储优化)-软件

    小米 · 北京市
    AI 估算 · 30k-50k
  • 顶尖应届-多模态大模型算法研究员-MiMo

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-动力大数据AI算法工程师-整车

    小米 · 南京市
    AI 估算 · 20k-30k
  • 顶尖应届-感知大模型算法工程师-自动驾驶

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-垂域Agentic大模型算法工程师-AI实验室

    小米 · 北京市
    AI 估算 · 25k-45k

小米 的其他在招职位

  • 顶尖应届-Linux内核优化研究员(存储优化)-软件

    小米 · 北京市
    AI 估算 · 30k-50k
  • 顶尖应届-多模态大模型算法研究员-MiMo

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-动力大数据AI算法工程师-整车

    小米 · 南京市
    AI 估算 · 20k-30k
  • 顶尖应届-感知大模型算法工程师-自动驾驶

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-垂域Agentic大模型算法工程师-AI实验室

    小米 · 北京市
    AI 估算 · 25k-45k