uncorrectable ecc error encountered
最近遇到一个问题,同一个服务部署到某一张固定的卡上就一定会出现 uncorrectable ECC error。然后查询了下ECC
cuda uncorrectable ECC error encountered
基本上确定是硬件的问题了。
查询到了对应的解决方案:
1.查看
首先使用 nvidia-smi -q -i 3 查看问题显卡(我们出问题的是3号卡),
或者只看retired page: nvidia-smi -q -i 3 -d PAGE_RETIREMENT
我们这张有问题的卡 Pending是Yes。
2.设置
需要将Pending 设置为No
使用指令 nvidia-sim -i 3 -e 0 设置后重启。
再次查看
Pending 已经是No了,再次测试运行服务已经没有问题了。
3.厂方反馈
安装GPU驱动的系统下,root用户任意目录下执行命令:
nvidia-bug-report.sh
执行命令后,当前目录下会生成日志压缩包: nvidia-bug-report.log.gz
把日志压缩包提供给供应商。
我们的供应商分析后,也同意给我们换显卡。