本文通过部署一个简单的示例应用向您介绍如何在集群中关闭共享GPU显存隔离能力。
适用场景
本文示例适用于已开启共享GPU显存隔离能力的专有版GPU集群及ACK Pro版集群。
前提条件
已安装共享GPU组件。具体操作,请参见安装共享GPU组件或安装并使用共享GPU组件和资源工具。
操作步骤
执行结果
您可以通过以下两种方式验证部署的共享GPU显存隔离能力是否被关闭:
- 方式一:执行以下命令查看部署应用的日志。
kubectl logs disable-cgpu-xxxx --tail=1
预期输出:
2020-08-25 08:14:54.927965: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1326] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 15024 MB memory) -> physical GPU (device: 0, name: Tesla V100-SXM2-16GB, pci bus id: 0000:00:07.0, compute capability: 7.0)
从日志中可以看到,容器中的应用程序能够使用的显存为15024 MiB,可证明共享GPU显存隔离能力被关闭了(共享GPU显存隔离能力开启时,应用程序能够看到的显存为3 GiB)。
- 方式二:执行以下命令登录容器查看容器被分配显存总量。
kubectl exec disable-cgpu-xxxx nvidia-smi
预期输出:
Tue Aug 25 08:23:33 2020 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 418.87.01 Driver Version: 418.87.01 CUDA Version: 10.1 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... Off | 00000000:00:07.0 Off | 0 | | N/A 33C P0 55W / 300W | 15453MiB / 16130MiB | 1% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| +-----------------------------------------------------------------------------+
从输出信息中可以看到宿主机的显存容量为16130 MiB,容器分配到的显存为15453 MiB,可证明共享GPU隔离能力未生效(共享GPU隔离能力开启时,容器分配到的显存为3 GiB)。