本文介绍通过部署创建GPU共享容器的YAML文件说明如何使用cGPU显存隔离能力,高效利用GPU设备资源。
前提条件
操作步骤
执行结果
您可以通过以下方式验证节点GPU显存隔离能力是否生效。
- 执行以下命令查看步骤2中部署应用的日志。
通过查看日志,您可以确定cGPU显存隔离是否成功部署。
kubectl logs gpu-share-sample --tail=1
预期输出:
2020-03-13 09:14:13.931003: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1326] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 2832 MB memory) -> physical GPU (device: 0, name: Tesla T4, pci bus id: 0000:00:07.0, compute capability: 7.5)
可以看到容器申请的显存为2832 MiB。
- 执行以下命令登录容器查看容器被分配显存总量。
kubectl exec -it gpu-share-sample nvidia-smi
预期输出:
Fri Mar 13 09:32:18 2020 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 418.87.01 Driver Version: 418.87.01 CUDA Version: 10.1 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla T4 On | 00000000:00:07.0 Off | 0 | | N/A 41C P0 26W / 70W | 3043MiB / 3231MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| +-----------------------------------------------------------------------------+
可以看到该容器被分配显存总量为3231 MiB 。
- 执行以下命令查看示例应用所在节点的GPU显存总量(在节点上执行)。
nvidia-smi
预期输出:
Fri Mar 13 17:36:24 2020 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 418.87.01 Driver Version: 418.87.01 CUDA Version: 10.1 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla T4 On | 00000000:00:07.0 Off | 0 | | N/A 40C P0 26W / 70W | 3053MiB / 15079MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | 0 8796 C python3 3043MiB | +-----------------------------------------------------------------------------+
可以看到主机上的显存总量为15079 MiB,其中分配给容器的是3053 MiB。