如果集群中存在vGPU实例类型的节点,您需要购买NVIDIA官方提供的GRID License,且自建License服务器该节点才能正常工作。本文介绍如何更新ACK集群中vGPU实例的NVIDIA驱动License。
前提条件
购买相应的License,更多信息,请参见NVIDIA License购买。
本文适用的ACK集群包括专有版、托管版和Pro版。
vGPU实例已加入ACK集群
License服务器搭建完成后,按照以下步骤更新节点GRID License。
说明
请购买ECS实例并参考NVIDIA官网教程搭建License服务器。更多信息,请参见NVIDIA。
登录vGPU节点,修改/etc/nvidia/gridd.conf文件中以下字段的值。
说明关于如何登录到GPU节点,请参见通过VNC连接实例。
ServerAddress=<your License Server address> ServerPort=<License Server port>执行以下命令重启NVIDIA驱动。
sudo systemctl daemon-reload sudo systemctl restart nvidia-gridd执行以下命令,确认该命令是否能正常执行。
sudo nvidia-smi预期输出:
Mon Apr 27 10:53:27 **** +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.161.07 Driver Version: 535.161.07 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 ******** Off | 00000000:00:08.0 Off | 0 | | N/A 34C P8 14W / 70W | 0MiB / 15360MiB | 0% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | No running processes found | +---------------------------------------------------------------------------------------+从上述输出可知,
nvidia-smi命令可以被正常执行,说明您已成功更新该vGPU实例的NVIDIA驱动License。
该文章对您有帮助吗?