本文通过部署创建GPU共享容器的YAML文件,介绍如何关闭共享GPU显存隔离能力。
前提条件
操作步骤
执行结果
您可以通过以下两种方式验证部署的共享GPU显存隔离能力是否被关闭:
- 方式一:执行以下命令查看部署应用的日志。
kubectl logs binpack-0 --tail=1
2020-08-25 08:14:54.927965: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1326] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 15024 MB memory) -> physical GPU (device: 0, name: Tesla V100-SXM2-16GB, pci bus id: 0000:00:07.0, compute capability: 7.0)
从日志中可以看到,容器中的应用程序能够使用的显存为15024 MB,可证明共享GPU显存隔离能力被关闭了(共享GPU显存隔离能力开启时,应用程序能够看到的显存为3 GB)。
- 方式二:执行以下命令登录容器查看容器被分配显存总量。
kubectl exec binpack-0 nvidia-smi
Tue Aug 25 08:23:33 2020 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 418.87.01 Driver Version: 418.87.01 CUDA Version: 10.1 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... Off | 00000000:00:07.0 Off | 0 | | N/A 33C P0 55W / 300W | 15453MiB / 16130MiB | 1% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| +-----------------------------------------------------------------------------+
从输出信息中可以看到宿主机的显存容量为16130 MiB,容器分配到的显存为15453 MiB,可证明共享GPU隔离能力未生效(共享GPU隔离能力开启时,容器分配到的显存为3 GB)。
在文档使用中是否遇到以下问题
更多建议
匿名提交