英特尔的AI Software Engineer Intern薪资是多少？

该职位薪资范围为 6k–12k（人民币/月）。

AI Software Engineer Intern的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

英特尔的AI Software Engineer Intern有什么任职要求？

该职位要求硕士学历及无经验要求工作经验。

英特尔

AI Software Engineer Intern

立即应聘

AI Software Engineer Intern

发布于大约 2 个月前

实习/见习

上海市

无经验要求

实习生

仅现场办公

硕士

软件工程

分布式系统

PyTorch

LLM

CUDA

模型优化

GPU编程

vLLM

MoE

推理系统

AI 估算 · 6k–12k

英特尔上海AI实习，大厂平台，前沿技术栈，薪资处于市场较高水平，但实习生一般按天结算。

职位详情

关于这个职位

该职位是英特尔上海的AI软件工程师实习岗位，专注于构建下一代大语言模型推理系统，涉及模型优化、GPU内核与运行时优化、分布式系统等前沿技术

你将阅读并复现SOTA论文，实现并优化LLM推理、MoE系统和GPU内核，参与端到端推理系统的开发

适合对系统性能和深度学习有浓厚兴趣的硕士或博士生

最低要求

基础要求：

硕博在读（计算机科学、电子工程或相关领域）

优秀的编程能力（Python必须）

熟悉PyTorch和Transformer模型

扎实的算法和系统基础知识

至少实习6个月（不接收短期）

工作职责

关键职责：

研究与原型开发：阅读并复现SOTA工作（LLM推理、MoE、系统），将想法转化为可运行且优化的实现，识别瓶颈并迭代超越基线性能

LLM推理优化：实现并评估连续/动态批处理、KV缓存优化与内存管理、推测解码、Flash/分页注意力、量化（INT8/FP8/低比特），优化延迟、吞吐量和GPU利用率

MoE系统：探索稀疏模型的高效推理：路由策略与负载均衡、专家并行与分片、通信与计算权衡，提升MoE推理的可扩展性和效率

内核与运行时优化：使用Triton类编程模型和CUDA或等效低级框架开发和优化GPU内核，研究内存访问模式和布局优化、算子融合和内核效率、张量工作负载的编译器优化，比较不同内核/运行时策略并集成到系统中

端到端推理系统开发：构建并优化完整推理栈：模型执行层（vLLM、TensorRT-LLM或类似）、运行时调度和批处理、跨GPU/节点的分布式推理，处理多GPU/多节点扩展、NCCL/通信优化、系统级性能调优

优先资格

优先经验：

具备GPU编程经验（CUDA、Triton或类似）

熟悉LLM推理框架（vLLM、TensorRT-LLM、FasterTransformer）

分布式系统或并行计算相关经验

了解GPU架构与性能分析

量化或模型优化经验

MoE或大规模模型系统经验

AI 洞察

优缺点分析

优点

深度接触前沿LLM推理技术，包括MoE、量化、内核优化等，技术含金量高
英特尔作为行业巨头，提供完善的资源和导师支持，有助于快速成长
岗位涉及全栈优化（模型→内核→分布式），视野开阔，技能全面
对核心技术能力要求高，需同时掌握算法和系统优化，学习曲线陡峭
AI领域竞争激烈，需要保持持续学习和自我驱动
适合对AI系统底层优化有浓厚兴趣、具备较强编程和算法基础的硕博学生，期望在工业界顶级团队积累实战经验

缺点 / 挑战

实习期至少6个月，需长期投入，兼顾学业压力较大

角色解读

积累AI系统底层优化经验，可向高性能计算或AI编译器方向发展
深入理解大模型部署全链路，未来可成为AI Infra或MLSys专家
英特尔平台提供与顶尖工程师合作的机会，为晋升全职或进入工业界奠定基础
阅读并复现最新的LLM推理、MoE和系统优化论文，将学术想法转化为高效实现
开发和优化GPU内核，使用CUDA或Triton编程模型，提升推理系统的性能
参与端到端推理系统的构建，从模型优化到分布式部署，解决实际性能瓶颈
扎实的Python编程能力和PyTorch框架使用经验是基础，需要熟悉Transformer模型结构
GPU编程经验（CUDA、Triton）和系统性能优化能力是核心差异项
对LLM推理流程（如vLLM、TensorRT-LLM）和分布式系统有基本了解

申请策略

在简历和面试中展现对性能优化的热情和解决问题的系统性思维
了解英特尔在AI领域的布局，特别是Habana Gaudi和Xe GPU架构，体现对公司的兴趣
突出GPU编程项目经验（如CUDA kernel开发、性能调优），展示对并行计算的理解
如果有LLM相关项目（如微调、推理部署）或开源贡献，务必详细描述
强调算法和系统基础，例如在论文复现或性能优化中的具体成果
提前学习CUDA编程和Triton语言，可以通过官方教程和示例项目快速上手
熟悉主流LLM推理框架（vLLM、TensorRT-LLM）的架构和核心优化技术

面试指南

针对性能优化问题：先定义瓶颈（计算/访存），再提出具体优化策略（如算子融合、内存布局调整），最后用实验数据验证效果
针对系统设计问题：从需求分析出发，分解模块（调度、内存管理、通信），考虑扩展性和性能权衡
请解释Flash Attention的原理及其对LLM推理性能的提升
如何优化一个CUDA kernel以利用GPU共享内存？请举例
描述MoE架构中专家路由的实现和负载均衡挑战
如何实现一个简单的连续批处理推理引擎？
你如何从论文到实现一个优化方案？请描述你的研究方法
复习GPU架构知识（SM、warp、共享内存等），准备一个完整的CUDA优化项目案例

匹配度报告

综合匹配度

英特尔上海AI实习，前沿LLM推理技术栈，技术成长极高，但薪资未披露且要求现场办公。

适合人群

最适合追求技术深度成长、愿意投入时间学习前沿AI系统优化的学生，对薪资和工作灵活性要求不高。

最强匹配

成长发展匹配

最弱匹配

工作生活匹配

薪资福利55

成长发展95

工作生活40

使命价值75

薪资福利匹配

55较低

薪资未在JD中披露，但作为实习生通常按天结算，上海生活成本较高，大厂平台有一定吸引力但经济上仅能覆盖基本开销。

薪资信号未披露（AI估算：6K-12K/月）

成长发展匹配

95较高

该岗位直接涉及LLM推理、GPU优化等前沿技术，能深度参与工业级系统构建，技能成长空间极大，且英特尔平台提供良好资源。

技术前沿前沿/新兴技术

技术栈LLM、GPU、CUDA、Triton、MoE、PyTorch、分布式系统、模型优化

业务类型ambiguous

工作生活匹配

40较低

要求现场办公，地点在上海，未提及弹性工作或远程选项，实习期可能面临通勤压力；工作强度可能较大但JD未明确。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值匹配

75中等

AI行业处于高速增长期，参与LLM推理系统开发具有技术推动意义，但JD未提及具体社会使命或价值导向。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

英特尔

AI Software Engineer Intern

立即应聘

AI Software Engineer Intern

发布于大约 2 个月前

实习/见习

上海市

无经验要求

实习生

仅现场办公

硕士

软件工程

分布式系统

PyTorch

LLM

CUDA

模型优化

GPU编程

vLLM

MoE

推理系统

AI 估算 · 6k–12k

英特尔上海AI实习，大厂平台，前沿技术栈，薪资处于市场较高水平，但实习生一般按天结算。