更换GPU实例的操作系统时如何取消自动安装Tesla驱动功能

更新时间:
复制为 MD 格式

创建GPU实例时,选择镜像后并同时选择了安装GPU驱动选项,则创建实例后会自动安装GPU(Tesla)驱动。如果因某种原因(例如当前使用的操作系统不能满足业务需求),您需要更换该GPU实例的操作系统,则同时也需要取消自动安装Tesla驱动功能,单独手动安装适配新操作系统的Tesla驱动,确保正常使用GPU实例的高性能特性。

操作步骤

  1. 远程连接GPU实例。

    具体操作,请参见使用Workbench登录Linux实例

  2. 执行nvidia-smi命令,查看Tesla驱动版本。

    [ecs-uxxxx@taZ ~]$ nvidia-smi
    Tue Aug  6 17:36:22 2024
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 550.90.07              Driver Version: 550.90.07      CUDA Version: 12.4     |
    |----------------------------------------------+------------------------+------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  Tesla T4                       On  |   00000000:00:07.0 Off |                    0 |
    | N/A   28C    P8              9W /  70W  |       1MiB /  15360MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI        PID   Type   Process name                          GPU Memory     |
    |        ID   ID                                                           Usage          |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+
  3. 停止GPU实例。

    停机GPU实例时,建议您选择 停止模式 普通停机模式 ,避免更换实例的操作系统时启动失败。具体操作,请参见停止实例

  4. 在实例列表中,找到已停止的GPU实例,在对应操作列,选择实例设置 > 设置用户数据

  5. 用户数据区域,删除用户数据内容并单击确定

  6. 更换GPU实例的操作系统。

    更换操作系统的本质是更换系统盘,您可以通过更换实例的镜像来更换操作系统。具体操作,请参见更换操作系统(更换系统盘)

  7. 在实例列表中,单击已更换操作系统的实例ID,在实例详情页签下确认实例的操作系统和镜像信息已更换。

  8. 重新远程连接GPU实例,并执行nvidia-smi命令,确认已取消自动安装Tesla驱动功能。

    [ecs-user@xxx ~]$ nvidia-smi
    -bash: nvidia-smi: command not found

后续步骤

GPU实例更换操作系统并取消自动安装Tesla驱动功能后,您需要根据实际业务场景手动安装与该GPU实例相匹配的驱动,才能正常使用GPU实例的高性能特性。具体操作,请参见GPU计算型实例中手动安装Tesla驱动(Linux)