
英特尔
AI Software Engineer Intern
AI Software Engineer Intern
发布于 大约 2 个月前实习/见习
上海市
无经验要求
实习生
仅现场办公
本科
软件工程
PyTorch
性能优化
LLM
SIMD
OpenMP
Amx
Avx-512
Onednn
Tbb
AI 估算 · 8k–15k
实习生通常按月薪或日薪计算,Intel上海AI实习岗位因技术难度高、前景好,月薪范围约8k-15k,处于行业较优水平。
职位详情
关于这个职位
作为英特尔的AI软件工程师实习生,你将加入数据中心网络边缘AI团队,专注于CPU性能工程,为Transformer、LLM等现代AI工作负载设计并优化高性能内核
你将利用AVX-512、AMX等英特尔架构特性,开发SIMD优化实现,并集成到oneDNN、PyTorch等生产框架
这是一个深入AI底层、积累高性能计算经验的绝佳机会
最低要求
候选人必须拥有在所就业国家的工作权利,无限制
目前正在攻读计算机科学、电子工程、计算机工程、并行计算或相关技术领域的学士(大四)、硕士或博士学位
能够全职或接近全职工作至少3个月
精通C/C++,对计算机体系结构有扎实理解,包括CPU流水线、缓存层次、内存模型和SIMD执行
具有以下至少一项的实践经验:x86 SIMD intrinsics (AVX2 / AVX-512 / AMX)
ARM Neon / SVE intrinsics
基于OpenMP/TBB的多线程优化
高性能CPU GEMM或卷积实现(例如参考oneDNN、OpenBLAS、XNNPACK、ggml)
具有性能分析工具(Intel® VTune™ Profiler、perf)的使用经验,并能将分析数据转化为具体优化措施
工作职责
设计并手动调优Transformer算子(Attention、GEMM、LayerNorm、RMSNorm、RoPE、MoE、Softmax)和经典算子(Conv2D/Conv3D、Depthwise Conv、Winograd、im2col、Pooling、BatchNorm、RNN/LSTM/GRU)的CPU内核
使用Intel® AVX2/AVX-512/AMX/VNNI intrinsics开发SIMD优化实现,ARM Neon/SVE作为次要目标
应用并行化策略(OpenMP、TBB、线程池设计),利用CPU微架构特性:缓存阻塞和分块、NUMA亲和性、预取、内存对齐和伪共享缓解
实现和优化用于LLM/VLM推理的低比特量化内核(INT8/INT4/W4A16/W8A8),利用Intel® AMX和VNNI实现最佳每瓦吞吐量
将自定义算子集成到生产框架和运行时中,包括Intel® oneDNN、PyTorch CPU后端、ONNX Runtime、llama.cpp、MLC-LLM和XNNPACK
使用Intel® VTune™ Profiler、Linux perf和罗浮线模型进行系统性性能分析
识别瓶颈并量化优化收益
为英特尔内部性能库贡献可重用内核、优化模板和最佳实践文档
优先资格
对oneDNN、OpenVINO™ toolkit、llama.cpp、ggml、XNNPACK、OpenBLAS、PyTorch或ONNX Runtime等项目的开源贡献
熟悉CNN推理优化:Winograd、im2col + GEMM、Direct Conv、NCHW/NHWC布局变换
熟悉LLM推理优化技术:KV-cache管理、continuous batching、speculative decoding和低比特量化
具有编译器基础设施(LLVM、MLIR、TVM)或自动调优框架(AutoTVM、Ansor)的经验
边缘或设备端部署经验(ARM服务器、AI PC、嵌入式SoC)
AI 洞察
优缺点分析
优点
- 接触最前沿的AI kernel优化技术,积累底层性能调优的硬核经验
- 英特尔平台资源丰富,有机会使用最新硬件特性(AMX等),提升技术视野
- 团队专业度高,与顶级工程师合作,快速成长
- 技术门槛高,需要扎实的体系结构知识和极强的编码能力
- 工作内容偏向底层,可能较为枯燥,需要耐心和细致
缺点 / 挑战
- 实习期需快速上手并产出,压力较大
- 适合对计算机体系结构有浓厚兴趣、乐于钻研底层性能优化、动手能力强且能承受高强度技术挑战的学生
角色解读
- 技术专家路线:深耕CPU内核优化,成为高性能计算/AI基础设施领域的专家
- 框架贡献者:通过向开源社区(PyTorch、ONNX等)贡献代码,提升行业影响力
- 交叉发展:转向AI芯片设计、编译器优化或系统架构等更高维度角色
- 设计并手写汇编级CPU内核,针对Transformer、CNN等AI算子进行极致性能优化
- 使用Intel AVX-512、AMX等SIMD指令集编写向量化代码,提升计算吞吐
- 将自定义算子集成到oneDNN、PyTorch等主流框架中,并利用VTune等工具进行性能分析
- 精通C/C++,深入理解CPU体系结构(缓存、流水线、SIMD)
- 掌握至少一种SIMD指令集(AVX2/AVX-512/AMX)或高性能计算优化经验
- 熟悉并行编程(OpenMP/TBB)和性能分析工具(VTune/perf)
申请策略
- 在面试中强调对性能优化的热情,并准备一个具体的优化案例分享
- 表达对英特尔架构和AI工作负载的深刻理解,展示快速学习能力
- 突出C/C++项目经验,尤其是涉及SIMD优化、多线程或性能分析的项目
- 展现对CPU体系结构的理解,例如课程项目或竞赛中优化矩阵乘法的经历
- 如果有开源贡献(如oneDNN、llama.cpp等),务必重点描述
- 提前学习Intel SIMD intrinsics(AVX2/AVX-512),动手编写简单内核
- 了解Transformer模型结构及常见算子的计算模式
- 熟悉VTune Profiler或perf的基本使用和瓶颈分析方法
面试指南
- 对于体系结构问题:从原理到实践,先解释基本概念,再结合具体优化技术(如缓存分块、向量化)
- 对于优化经历:使用STAR方法(情境、任务、行动、结果),重点说明分析工具如何指导优化决策
- 对于开放性问题:展示系统性思考,先分析瓶颈可能位置,再提出针对性的解决策略
- 请解释CPU cache hierarchy及其对性能优化的影响
- 如何利用SIMD指令加速一个简单的矩阵乘法?
- 描述一次你进行性能分析并找到瓶颈的经历
- 你对Transformer模型中的Attention算子优化有什么想法?
- 请比较OpenMP和TBB的优缺点及使用场景
匹配度报告
70
综合匹配度
技术极客型实习,深入AI底层优化,成长性极高,但需现场办公且强度可能较大。
适合人群
适合极度重视技术成长和前沿知识积累、对WLB要求不高的学生。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利60
成长发展95
工作生活50
使命价值75
薪资福利匹配
60中等
英特尔实习薪资有竞争力,但JD未明确数字,且实习期较短,稳定性一般。
薪资信号未披露(AI估算:8K-15K/月)
成长发展匹配
95较高
全面接触AI底层优化、前沿技术(LLM、AMX等),技能成长空间极大,且JD强调贡献到生产框架,成长信号强烈。
技术前沿前沿/新兴技术
技术栈AVX-512、AMX、VNNI、Transformer、LLM、oneDNN、PyTorch、SIMD、OpenMP、VTune
成长机会性能库、最佳实践文档、开源贡献
业务类型ambiguous
工作生活匹配
50较低
要求现场办公,未提及弹性工时或WLB,实习强度可能较大,但固定地点无需出差。
工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)
使命价值匹配
75中等
AI基础设施工作推动行业进步,英特尔平台影响力大,但使命信号不明显。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
英特尔 的其他在招职位
相似职位推荐
Watch Jobs