本文为您介绍阿里云共享GPU(昊天cGPU)方案,帮助您了解和更好地使用共享GPU的能力。

背景介绍

阿里云容器服务Kubernetes版ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里云、AWS、GCE和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。ACK开源GPU共享调度降低了使用GPU的经济成本,但是如何能在节省经济成本同时也能让GPU上的容器运行更稳定呢?

隔离是一个关键的需求。如何限制运行在同一个GPU上的多个容器能够按照自己申请的资源使用量运行,避免因为其资源用量超标影响同一个GPU上的其他容器的正常工作,对此业界也做了很多探索。Nvidia vGPU、MPS,和vCUDA方案,都为更小颗粒度的使用GPU提供了可能。

功能介绍

阿里云开发了昊天cGPU方案。共享GPU(昊天cGPU方案)通过自主研发的宿主机内核驱动, 实现对Nvidia GPU的底层nv驱动更有效的利用。共享GPU功能如下:
  • 更加开放:适配开源标准的Kubernetes和Nvidia Docker方案。
  • 更加简单:优秀的用户体验。AI应用无需重编译,无需构建新的容器镜像进行cuda库替换。
  • 更加稳定:针对Nvidia设备的底层操作更加稳定和收敛,而CUDA层的API变化多端,同时一些Cudnn非开放的API也不容易捕获。
  • 完整隔离:同时支持GPU的显存和算力隔离。

阿里云的昊天cGPU方案和ACK的GPU共享调度一起协作,打通从Kubernetes调度到容器运行时GPU的共享和隔离,形成低成本、可靠、用户友好的规模化GPU调度和隔离方案。