ACK集群实现GPU成本优化

通过使用阿里云cGPU技术,您可以将GPU利用率不高的应用容器化部署在一块GPU卡上,实现资源利用率提升并且降低成本,且保持对高负载应用的资源保障。

背景信息

阿里云GPU团队推出了昊天cGPU方案:通过一个内核驱动,为容器提供了虚拟的GPU设备节点,从而实现了显存和算力的隔离;通过用户态轻量的运行库来配置容器内的虚拟GPU设备节点。昊天cGPU在做到算力调度与显存隔离的同时,也做到了无需替换CUDA静态库或动态库;无需重新编译CUDA应用;CUDA,cuDNN等版本随时升级无需适配等特性。

解决方案

  • 在ACK服务中实现共享GPU,灵活拆分。

  • 提高GPU利用率,降低TCO。

  • 应用无需修改,保障多个容器共享同一个GPU时,彼此互相隔离。

架构图

image

参考链接

有关ACK实现GPU成本优化的详情,请参见ACK实现GPU成本优化