创建GPU实例时,选择镜像后并同时选择了安装GPU驱动选项,则创建实例后会自动安装GPU(Tesla)驱动。如果因某种原因(例如当前使用的操作系统不能满足业务需求),您需要更换该GPU实例的操作系统,则同时也需要取消自动安装Tesla驱动功能,单独手动安装适配新操作系统的Tesla驱动,确保正常使用GPU实例的高性能特性。
操作步骤
-
远程连接GPU实例。
具体操作,请参见使用Workbench登录Linux实例。
-
执行
nvidia-smi命令,查看Tesla驱动版本。[ecs-uxxxx@taZ ~]$ nvidia-smi Tue Aug 6 17:36:22 2024 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 550.90.07 Driver Version: 550.90.07 CUDA Version: 12.4 | |----------------------------------------------+------------------------+------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 Tesla T4 On | 00000000:00:07.0 Off | 0 | | N/A 28C P8 9W / 70W | 1MiB / 15360MiB | 0% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+ -
停止GPU实例。
停机GPU实例时,建议您选择 停止模式 为 普通停机模式 ,避免更换实例的操作系统时启动失败。具体操作,请参见停止实例。
-
在实例列表中,找到已停止的GPU实例,在对应操作列,选择。
-
在用户数据区域,删除用户数据内容并单击确定。
-
更换GPU实例的操作系统。
更换操作系统的本质是更换系统盘,您可以通过更换实例的镜像来更换操作系统。具体操作,请参见更换操作系统(更换系统盘)。
-
在实例列表中,单击已更换操作系统的实例ID,在实例详情页签下确认实例的操作系统和镜像信息已更换。
-
重新远程连接GPU实例,并执行
nvidia-smi命令,确认已取消自动安装Tesla驱动功能。[ecs-user@xxx ~]$ nvidia-smi -bash: nvidia-smi: command not found
后续步骤
GPU实例更换操作系统并取消自动安装Tesla驱动功能后,您需要根据实际业务场景手动安装与该GPU实例相匹配的驱动,才能正常使用GPU实例的高性能特性。具体操作,请参见在GPU计算型实例中手动安装Tesla驱动(Linux)。
该文章对您有帮助吗?