uncorrectable ecc error encountered

2 年前

最近遇到一个问题,同一个服务部署到某一张固定的卡上就一定会出现 uncorrectable ECC error。然后查询了下ECC

cuda uncorrectable ECC error encountered

基本上确定是硬件的问题了。

查询到了对应的解决方案:

1.查看

首先使用 nvidia-smi -q -i 3 查看问题显卡(我们出问题的是3号卡),

或者只看retired page: nvidia-smi -q -i 3 -d PAGE_RETIREMENT

我们这张有问题的卡 Pending是Yes。

2.设置

需要将Pending 设置为No

使用指令 nvidia-sim -i 3 -e 0 设置后重启。

再次查看

Pending 已经是No了,再次测试运行服务已经没有问题了。

3.厂方反馈

安装GPU驱动的系统下,root用户任意目录下执行命令: nvidia-bug-report.sh

执行命令后,当前目录下会生成日志压缩包: nvidia-bug-report.log.gz

把日志压缩包提供给供应商。

我们的供应商分析后,也同意给我们换显卡。

发布于 2021-07-08 11:02