更新ACK集群中GPU虚拟化型(vGPU)实例的NVIDIA驱动License

更新时间:
复制为 MD 格式

如果集群中存在vGPU实例类型的节点,您需要购买NVIDIA官方提供的GRID License,且自建License服务器该节点才能正常工作。本文介绍如何更新ACK集群中vGPU实例的NVIDIA驱动License。

前提条件

  • 购买相应的License,更多信息,请参见NVIDIA License购买

  • 本文适用的ACK集群包括专有版、托管版和Pro版。

vGPU实例已加入ACK集群

License服务器搭建完成后,按照以下步骤更新节点GRID License。

说明

请购买ECS实例并参考NVIDIA官网教程搭建License服务器。更多信息,请参见NVIDIA

  1. 登录vGPU节点,修改/etc/nvidia/gridd.conf文件中以下字段的值。

    说明

    关于如何登录到GPU节点,请参见通过VNC连接实例

    ServerAddress=<your License Server address>
    ServerPort=<License Server port>
  2. 执行以下命令重启NVIDIA驱动。

    sudo systemctl daemon-reload
    sudo systemctl restart nvidia-gridd
  3. 执行以下命令,确认该命令是否能正常执行。

    sudo nvidia-smi

    预期输出:

    Mon Apr 27 10:53:27 ****       
    +---------------------------------------------------------------------------------------+
    | NVIDIA-SMI 535.161.07             Driver Version: 535.161.07   CUDA Version: 12.2     |
    |-----------------------------------------+----------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
    |                                         |                      |               MIG M. |
    |=========================================+======================+======================|
    |   0  ********                       Off | 00000000:00:08.0 Off |                    0 |
    | N/A   34C    P8              14W /  70W |      0MiB / 15360MiB |      0%      Default |
    |                                         |                      |                  N/A |
    +-----------------------------------------+----------------------+----------------------+
                                                                                             
    +---------------------------------------------------------------------------------------+
    | Processes:                                                                            |
    |  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
    |        ID   ID                                                             Usage      |
    |=======================================================================================|
    |  No running processes found                                                           |
    +---------------------------------------------------------------------------------------+

    从上述输出可知,nvidia-smi命令可以被正常执行,说明您已成功更新该vGPU实例的NVIDIA驱动License。