英特尔的Cloud and AI System Intern薪资是多少？

该职位薪资范围为 8k–12k（人民币/月）。

Cloud and AI System Intern的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

该职位要求博士学历及无经验要求工作经验。

🤖 AI 估测：¥8K-12K

发布时间：1 天前

该实习岗位隶属于英特尔系统可靠性研究团队，专注于AI和通用计算平台的RAS（可靠性、可用性、可服务性）与静默数据错误（SDE）的检测与缓解

你将参与设计实验、分析大规模集群日志、开发自动化工具，并与跨团队协作，提升端到端数据完整性和平台鲁棒性

适合对系统可靠性和AI基础设施有浓厚兴趣的博士生

收集、清洗和分析来自CPU服务器和加速器节点的平台遥测/错误日志（如内存/DDR/HBM、存储、互连、PCIe/CXL、结构），识别错误特征和故障模式

设计和执行故障注入、压力测试或工作负载驱动实验，重现AI训练/推理和通用计算工作负载的静默数据损坏场景，并验证假设

研究和分析现场扫描和锁步模式特性（覆盖范围、限制、触发条件及对AI/CPU工作负载的影响），帮助评估如何利用它们改进生产中的静默错误检测和数据完整性

研究和分析硅生命周期管理（SLM）解决方案，并将其与平台遥测集成，实现现场健康监控、退化/趋势分析以及AI/CPU平台的主动可靠性改进

开发脚本/工具（首选Python）以自动化数据处理、实验编排和报告生成

必要时构建仪表板或可重复的流水线

研究和评估AI+CPU平台的缓解技术（如ECC/CRC/EDAC、清洗策略、重试/恢复、检查点/重启、数据/通信边界的端到端检查），并量化其与性能/成本影响的有效性

与跨职能团队（硬件、固件、操作系统、驱动/运行时、数据中心运营）协作，追踪错误传播路径并推动可操作的改进

记录发现并定期汇报进展

收集、清洗和分析来自CPU服务器和加速器节点的平台遥测/错误日志（如内存/DDR/HBM、存储、互连、PCIe/CXL、结构），识别错误特征和故障模式

设计和执行故障注入、压力测试或工作负载驱动实验，重现AI训练/推理和通用计算工作负载的静默数据损坏场景，并验证假设

研究和分析硅生命周期管理（SLM）解决方案，并将其与平台遥测集成，实现现场健康监控、退化/趋势分析以及AI/CPU平台的主动可靠性改进

开发脚本/工具（首选Python）以自动化数据处理、实验编排和报告生成

必要时构建仪表板或可重复的流水线

与跨职能团队（硬件、固件、操作系统、驱动/运行时、数据中心运营）协作，追踪错误传播路径并推动可操作的改进

记录发现并定期汇报进展

优先考虑对AI和通用计算平台的系统可靠性/数据完整性研究感兴趣的候选人

博士在读（计算机科学、计算机工程、电子工程、数学、统计学或相关专业）

扎实的Python编程技能

有Linux和基本脚本编写经验

熟悉Github Copilot者优先

强大的数据分析能力

有pandas/numpy/matplotlib、SQL或日志分析经验者优先

对计算机体系结构和系统（内存层次结构、存储、网络）有基本了解者优先

熟悉RAS概念（ECC、CRC、奇偶校验、清洗、检查点）者优先

了解AI系统栈（GPU/加速器、驱动/运行时、分布式训练/推理、通信集合、数据流水线以及性能/可靠性权衡）者优先

良好的中英文沟通能力（口头和书面）

研究思维：能够形成假设、设计实验并撰写清晰的技术报告

Cloud and AI System Intern

🤖 AI 估测：¥8K-12K

发布时间：1 天前