升级Tesla或GRID驱动

如果您的NVIDIA Tesla或NVIDIA GRID驱动版本已不适用于当前场景,或者您安装了错误的驱动类型或版本导致GPU实例无法使用,您可以通过卸载当前驱动再安装所需驱动的方式,完成Tesla或GRID驱动的升级操作。

升级NVIDIA Tesla驱动

升级Tesla驱动时,需要先卸载相应的Tesla驱动,然后再根据需要安装的驱动类型和操作系统,重新安装新的Tesla驱动。

  1. 卸载当前Tesla驱动。

    具体操作,请参见卸载Tesla驱动

  2. 安装新的Tesla驱动。

升级NVIDIA GRID驱动

确认是否需要升级GRID驱动

升级GRID驱动前,请先判断当前实例的GRID驱动是否需要升级,然后再根据实际情况选择对应的升级方式。

  • Windows系统GPU虚拟化型实例vgn5i、vgn6i、vgn6i-vws、vgn7i-vws、sgn7i-vws)

    • 如果实例的当前GRID驱动版本号不是474.04,则您需要将当前驱动升级到SWL驱动。

    • 如果实例的当前GRID驱动版本号是474.04,则您需要通过查看License Status判断是否需要升级驱动。具体操作如下:

      1. 登录Windows系统GPU虚拟化型实例(例如vgn7i-vws)。

        具体操作,请参见通过密码或密钥认证登录Windows实例

      2. 打开cmd,依次执行以下命令,查看当前驱动License Status。

        cd C:\Program Files\NVIDIA Corporation\NVSMI 
        nvidia-smi.exe -q | findstr License

        输出结果如下所示,表示当前驱动的License未过期,此时您无需将当前驱动升级到SWL驱动,否则您需要将当前驱动升级到SWL驱动。具体操作,请参见通过更新镜像升级vgn5i或vgn6i的GRID驱动通过云助手升级GRID驱动

        vgpu-License.png

  • Windows系统GPU计算型实例(gn7i、gn6i、ebmgn7i、ebmgn6i)

    您可以通过查看License Status判断是否需要升级驱动。具体操作如下:

    1. 登录Windows系统GPU计算型实例(例如gn7i)。

      具体操作,请参见通过密码或密钥认证登录Windows实例

    2. 打开cmd,依次执行以下命令,查看当前驱动License Status。

      cd C:\Program Files\NVIDIA Corporation\NVSMI 
      nvidia-smi.exe -q | findstr License
      • 如果输出结果如下图所示,表示当前驱动的License未过期,此时您需要继续执行下一步。

      • 如果输出结果非下图所示,表示当前驱动的License已过期,此时您需要将当前驱动升级到SWL驱动。具体操作,请参见通过云助手升级GRID驱动

        vgpu-License-windows.png

    3. (可选)执行以下命令,查看License类型是否为NVIDIA RTX Virtual Workstation。

      如果当前驱动的License未过期,您需要继续确认License类型是否为NVIDIA RTX Virtual Workstation。

      nvidia-smi.exe -q | findstr Product
      • 如果输出结果如下图所示,表示当前驱动License类型为NVIDIA RTX Virtual Workstation,此时您无需将当前驱动升级到SWL驱动。

      • 如果输出结果非下图所示,表示当前驱动License类型不是NVIDIA RTX Virtual Workstation,此时您需要将当前驱动升级到SWL驱动。具体操作,请参见通过云助手升级GRID驱动

        vWS.png

  • Linux系统GPU虚拟化型实例vgn5i、vgn6i、vgn6i-vws、vgn7i-vws、sgn7i-vws)

    • 如果实例已安装的GRID驱动版本号不是470.161.03,则需要升级驱动。

    • 如果实例已安装的GRID驱动版本号是470.161.03,则您需要通过查看License Status判断是否需要升级驱动。具体操作如下:

      1. 登录Linux系统GPU虚拟化型实例(例如vgn7i-vws)。

        具体操作,请参见通过密码或密钥认证登录Linux实例

      2. 执行以下命令,查看当前驱动License Status。

        # nvidia-smi -q |grep -i license

        输出结果如下所示,表示当前驱动的License未过期,此时您无需将当前驱动升级到SWL驱动,否则您需要将当前驱动升级到SWL驱动。具体操作,请参见通过更新镜像升级vgn5i或vgn6i的GRID驱动通过云助手升级GRID驱动

        vgpu-License-linux.png

  • Linux系统GPU计算型实例(gn7i、gn6i、ebmgn7i、ebmgn6i)

    因为该实例不需要使用GRID驱动也可以支持图形加速功能,仅使用NVIDIA官网驱动即可,您无需将当前驱动升级到SWL驱动。

通过更新镜像升级vgn5i或vgn6i的GRID驱动

适用实例

仅适用Windows系统或Linux系统的GPU虚拟化型实例vgn5i或vgn6i。

重要

自2024年2月1日起,vgn5i和vgn6i实例且将全面关闭,更多信息,请参见【公告】vgn5i和vgn6i停售通知

通过更新镜像的方式升级vgn5i或vgn6i规格的GRID驱动,其原因及建议如下所示:

实例规格

原因

建议

vgn5i

vgn5i使用的P4显卡无法使用SWL类型的GRID驱动。

将该实例升配为vgn6i-vws、sgn7i-vws后,然后通过更新镜像的方式升级为GRID驱动。

重要

升配过程中,升配后的实例相比升配前的实例费用要高一些,提交工单获取代金券,用于抵扣升配时需要支付的额外费用。

vgn6i

vgn6i所在服务器使用的还是GRID 9,该服务器无法兼容SWL类型的GIRD驱动。

操作步骤

  1. 升配实例规格。

    以vgn6i(ecs.vgn6i-m4.xlarge)实例升配为sgn7i-vws(ecs.sgn7i-vws-m2.xlarge)实例为例,vgn6i实例的升配操作请参考以下步骤。

    1. 登录ECS管理控制台

    2. 在左侧导航栏,选择实例与镜像 > 实例

    3. 在顶部菜单栏左上角处,选择地域。

    4. 找到待操作的vgn6i实例,在操作列,单击资源变配

    5. 配置变更页面的实例配置页签下,选择更改实例规格,然后单击继续

    6. 更改实例规格页面,选择更改后的目标实例规格,然后单击停止实例并继续

      更改实例规格.png

    7. 在弹出的停止实例页面,根据需要选择停止方式停止模式选项后,单击确定

      说明

      如需了解停止实例的更多信息,请参见停止实例

    8. 待实例升配完成后,单击启动实例并返回

    9. 在弹出的启动实例页面,单击确定

      在实例列表中,单击升配后的实例ID,进入实例详情页签,您可以查看到当前实例规格已变更为ecs.sgn7i-vws-m2.xlarge

      变更后.png

  2. 将升配后的实例驱动升级为SWL GRID驱动。

    1. 在实例列表页,找到升配后的sgn7i-vws实例,单击对应操作列的停止

    2. 在弹出的停止实例页面,根据需要选择停止方式停止模式选项后,单击确定

      说明

      如需了解停止实例的更多信息,请参见停止实例

    3. 找到目标实例,在操作列选择更多 > 云盘与镜像 > 更换操作系统

    4. 更换操作系统对话框,选中更换系统盘

    5. 仔细阅读更换操作系统注意事项并选中我已知晓以上风险,然后单击继续更换操作系统

      更换操作系统.png

    6. 镜像区域,单击镜像市场页签,然后单击从镜像市场获取更多选择(含操作系统)

      镜像市场.png

    7. 在弹出的镜像市场页面,输入GRID 13.5后,单击搜索

      目前支持使用如下Linux操作系统和Windows操作系统的镜像:

      操作系统

      已预装GRID驱动的镜像

      Linux

      • Alibaba Cloud Linux 2.1903 LTS 64位预装GRID 13.5 SWL驱动镜像

      • Alibaba Cloud Linux 3.2104 LTS 64位预装GRID 13.5 SWL驱动镜像

      • CentOS 7.9 64位预装GRID 13.5 SWL驱动镜像

      • Ubuntu 18.04 64位预装GRID 13.5 SWL驱动镜像

      • Ubuntu 20.04 64位预装GRID 13.5 SWL驱动镜像

      • Ubuntu 22.04 64位预装GRID 13.5 SWL驱动镜像

      Windows

      • Windows Server 2022中文版预装GRID 13.5 SWL驱动镜像

      • Windows Server 2019中文版预装GRID 13.5 SWL驱动镜像

    8. 根据需要选择相应的已预装GRID 13.5 SWL驱动的镜像,然后单击使用

通过云助手升级GRID驱动

重要

对于存量的vgn5i和vgn6i实例,请勿使用云助手方式升级GRID驱动,否则会导致该实例不可用。可用的升级方式请参见通过更新镜像升级vgn5i或vgn6i的GRID驱动

升级GRID驱动(Windows)

适用实例

仅以下Windows GPU实例规格族支持通过云助手升级GRID驱动:

  • Windows系统GPU虚拟化型实例:vgn6i-vws、vgn7i-vws、sgn7i-vws

  • Windows系统GPU计算型实例:gn7i、gn6i、ebmgn7i、ebmgn6i

操作步骤

下文以一台华东1(杭州)地域的vgn6i-vws实例(ecs.vgn6i-m4-vws.xlarge)为例。

  1. 登录ECS管理控制台

  2. 在左侧导航栏,选择运维与监控 > 云助手

  3. 在页面左侧顶部,选择目标资源所在的地域。

    地域.png

  4. ECS实例页签下的实例列表,选择目标实例,单击对应操作栏下的执行命令

    ECS执行命令.png

  5. 通过创建并执行云助手命令升级GRID驱动。

    1. 创建执行命令面板的命令信息区域,完成参数配置。

      主要参数配置项如下所示,其他参数保持默认,更多信息,请参见命令参数(控制台操作)

      重要

      参数取值必须按照下文提供的取值来设定,否则可能会导致云助手执行失败。

      创建命令.png

      • 命名类型:支持选择Bat和Power Shell两种命令类型。取值:PowerShell

      • 命令内容:编辑或者粘贴您的命令。示例如下:

        $InstalledPlugins = $(acs-plugin-manager --list --local)
        if ($($InstalledPlugins | Select-String "grid_driver_install"))
           {
             acs-plugin-manager --remove --plugin grid_driver_install
           } 
        acs-plugin-manager --fetchTimeout 0 --exec --plugin grid_driver_install
      • 超时时间:设置命令在实例中的超时时间,当执行命令的任务超时后,云助手将强制终止任务进程。取值:600

        说明

        超时时间仅支持设置为正整数,单位为秒,取值范围:10~86,400秒(24小时),默认值为60秒。

    2. 单击执行,通过云助手命令升级GRID驱动。

      云助手命令执行完成后,在执行详情页查看如下信息(即旧版GRID驱动需要卸载后才能升级),表示实例已安装旧版GRID驱动。

      提示.png

      您需要通过云助手命令先卸载当前已安装的旧版GRID驱动,然后必须重启实例,再执行一次相同的云助手命令才能继续升级GRID驱动。具体操作如下:

      重要

      卸载或重新安装GRID驱动大概需要5~10分钟完成,请您耐心等待。

      1. 重启GPU实例。

        具体操作,请参见重启实例

      2. 再次执行相同的云助手命令重新安装新的GRID驱动。

        通过云助手命令自动安装新的GRID驱动后,您可以在执行详情页查看执行结果。

        重新安装.png

  6. 验证升级的GRID驱动是否生效。

    1. 重启GPU实例。

      具体操作,请参见重启实例

    2. 远程连接GPU实例。

      具体操作,请参见通过密码或密钥认证登录Windows实例

    3. 在登录页面空白处,右键单击并打开NVIDIA 控制面板

      验证windows结果-zh.png

      显示结果如下所示,表示安装的新GRID驱动已生效。

      p708166.png

升级GRID驱动(Linux)

适用实例

仅以下Linux GPU实例规格族支持通过云助手升级GRID驱动:vgn6i-vws、vgn7i-vws、sgn7i-vws

操作步骤

下文以一台华东1(杭州)地域的vgn6i-vws实例(ecs.vgn6i-m4-vws.xlarge )为例。

  1. 登录ECS管理控制台

  2. 在左侧导航栏,选择运维与监控 > 云助手

  3. 在页面左侧顶部,选择目标资源所在的地域。

    地域.png

  4. ECS实例页签下的实例列表,选择目标实例,单击对应操作栏下的执行命令

    linux.png

  5. 创建执行命令面板的命令信息区域,完成参数配置。

    主要参数配置项如下所示,其他参数保持默认。更多信息,请参见命令参数(控制台操作)

    重要

    参数取值必须按照下文提供的取值来设定,否则可能会导致云助手执行失败。

    linux命令.png

    • 命令类型:选择Shell

    • ②命令内容:粘贴如下命令。有关Shell命令的示例,请参见查看实例系统配置

      if acs-plugin-manager --list --local | grep grid_driver_install > /dev/null 2>&1
      then
          acs-plugin-manager --remove --plugin grid_driver_install
      fi
      
      acs-plugin-manager --exec --plugin grid_driver_install
    • 超时时间:命令执行超时时间。当执行命令的任务超时后,云助手将强制终止任务进程。取值:600

      说明

      超时时间仅支持设置为正整数,单位为秒,取值范围:10~86,400秒(24小时)。

  6. 单击执行,通过云助手命令自动升级GRID驱动。

    执行完成后,您可以在执行详情页查看执行结果 。

    重要
    • 如果实例已安装了其他版本的GRID驱动,云助手会自动卸载当前版本GRID驱动,并重新安装最新的SWL GRID驱动。

    • 升级GRID驱动大概需要5~10分钟完成,请您耐心等待。

    linux安装成功.png

  7. 远程连接GPU实例。

    具体操作,请参见通过密码或密钥认证登录Linux实例

  8. 执行以下命令,查看GRID驱动是否升级成功。

    nvidia-smi

    回显结果显示如下,表示已成功升级GRID驱动。

    结果.png