NVIDIA常见XID错误解读(附带ECC错误清理)
"
Xid 13
:此事件记录的是一般用户应用程序故障。通常,这是一个越界错误,即用户越过了数组的末尾,但也可能是非法指令、非法寄存器或其他情况。
Xid 31
:当 MMU 报告故障时(例如,芯片上的某个单元进行了非法地址访问),会记录此事件。通常,这些是应用程序级错误,但也可能是驱动程序错误或硬件错误。
Xid 32
当 DMA 控制器(用于管理 NVIDIA 驱动程序与 GPU 之间通过 PCI-E 总线的通信流)报告故障时,会记录此事件。这些故障主要涉及 PCI 上的质量问题,通常不是由用户应用程序操作引起的。
Xid 43
当用户应用程序遇到软件引发的故障且必须终止时,会记录此事件。GPU 仍保持健康状态。
在大多数情况下,这并不表示驱动程序存在错误,而是用户应用程序存在错误。
Xid 45
当用户应用程序中止且内核驱动程序关闭 GPU 上运行的 GPU 应用程序时,会记录此事件。Ctrl-C、GPU 重置、sigkill 都是应用程序中止并创建此事件的示例。
Xid 48
当 GPU 检测到 GPU 上发生无法纠正的ECC错误时,会记录此事件。此错误也会报告给用户应用程序。需要重置 GPU 或重启节点才能清除此错误。(执行清理ECC)
Xid 63, 64
当 GPU 处理 GPU 上的 ECC 内存错误时,会记录这些事件。(执行清理ECC)
Xid 74
当 GPU 检测到 GPU 与其他 GPU 或 NVSwitch(通过 NVLink)之间的连接出现问题时,会记录此事件。需要重置 GPU 或重启节点才能清除此错误。
此事件可能表示链路本身出现硬件故障,也可能表示链路远端的设备出现问题。例如,如果一个 GPU 发生故障,则通过 NVLink 连接到该 GPU 的另一个 GPU 可能会报告。Xid 74,仅仅是因为链路因此中断。查看lspci |grep -i nvidia是否有4个NVlink和systemctl statu nvidia-fabricmanager查看NVSWitch
Xid 79
当 GPU 驱动程序尝试通过其 PCI Express 连接访问 GPU 并发现 GPU 不可访问时,会记录此事件。此事件通常是由 PCI Express 链路上的硬件故障引起的,导致 GPU 因链路断开而无法访问。查看系统事件日志和内核 PCI 事件日志或许能提供更多关于链路故障来源的线索。此事件也可能是由 GPU 硬件故障或其他驱动程序问题引起的。
Xid 93
当 GPU 驱动程序因违反使用 NVFlash 为 GPU 设置的预配置 InfoROM 磨损限制而无法更新 InfoROM 时,会记录此事件。nvflash --=elsessionstart。在大多数情况下,这并不表示驱动程序或闪存出现故障,而是 NVFlash 设置的 InfoROM 磨损保护功能的故意使用。
Xid 94, 95
对于 Xid 94,这些错误仅限于一个应用程序,遇到此错误的应用程序必须重新启动。在 Xid 发生时运行的所有其他应用程序均不受影响。建议在方便时重置 GPU。应用程序可以继续运行,直到重置完成。
Xid 140
当 GPU 驱动程序检测到 GPU 内存中存在无法纠正的错误时,可能会发生此事件,从而中断 GPU 驱动程序标记页面以进行动态页面脱机或行重新映射的功能。请重置 GPU,如果问题仍然存在,请联系硬件供应商寻求支持。
H系列显卡可清理ECC错误,需要的可以私信博主。