收集、清洗和分析来自CPU服务器和加速器节点的平台遥测/错误日志(如内存/DDR/HBM、存储、互连、PCIe/CXL、结构),识别错误特征和故障模式
设计和执行故障注入、压力测试或工作负载驱动实验,重现AI训练/推理和通用计算工作负载的静默数据损坏场景,并验证假设
研究和分析现场扫描和锁步模式特性(覆盖范围、限制、触发条件及对AI/CPU工作负载的影响),帮助评估如何利用它们改进生产中的静默错误检测和数据完整性
研究和分析硅生命周期管理(SLM)解决方案,并将其与平台遥测集成,实现现场健康监控、退化/趋势分析以及AI/CPU平台的主动可靠性改进
开发脚本/工具(首选Python)以自动化数据处理、实验编排和报告生成
必要时构建仪表板或可重复的流水线
研究和评估AI+CPU平台的缓解技术(如ECC/CRC/EDAC、清洗策略、重试/恢复、检查点/重启、数据/通信边界的端到端检查),并量化其与性能/成本影响的有效性
与跨职能团队(硬件、固件、操作系统、驱动/运行时、数据中心运营)协作,追踪错误传播路径并推动可操作的改进
记录发现并定期汇报进展