重启GPU实例后导致Persistence Mode属性开启失效, 同时ECC状态或MIG功能设置也失败

在GPU计算型实例中安装高版本Tesla驱动(例如驱动版本为535或更高版本)后,通过nvidia-smi -pm 1命令方式开启Persistence Mode属性,可能会因为驱动版本过高,重启实例后导致该属性开启失效,同时ECC状态或MIG功能设置也失败,本文介绍这种情况的解决方案。

问题现象

在GPU计算型实例中安装Tesla驱动(Linux)时,该驱动版本为535或更高版本,通过nvidia-smi -pm 1命令方式开启Persistence Mode属性后,可能会导致以下问题:

  • 重启GPU实例后,导致Persistence Mode属性开启失效(即Persistence Mode仍默认为Off状态)。

  • ECC状态设置失败。

  • MIG功能设置失败。

问题原因

由于Tesla驱动版本过高,即驱动版本为535或更高版本时,同时通过nvidia-smi -pm 1命令开启Persistence Mode属性,重启GPU实例后导致上述问题发生。

解决方案

查看dmesg日志时,如果存在以下提示,建议您通过NVIDIA Persistence Daemon方式打开Persistence Mode属性。具体操作,请参见通过NVIDIA Persistence Daemon方式开启Persistence-M

NVRM: Persistence mode is deprecated and will be removed in a future release. Please use nvidia-persistenced instead.