本方案适用于在利用阿里云容器服务ACK部署GPU集群后,出于成本优化的考虑,对于集群中GPU利用率不高的应用,使用GPU容器共享技术cGPU让一定数量的应用共享一张GPU卡,从而提高利用率。对于GPU利用率较高的应用,则不做改动。实现了灵活管理的同时降低整体成本。

方案优势

  • 在ACK服务中实现共享GPU的灵活拆分。
  • 提高GPU利用率,降低整体拥有成本。
  • 无需修改应用,保障多个容器共享同一个GPU的同时,实现彼此间的互相隔离。

部署架构图

ACK

选用的产品

  • 云服务器ECS

    云服务器(Elastic Compute Service)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。

    更多关于云服务器ECS的介绍,请参见云服务器ECS产品详情页

  • GPU服务器

    GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景。

    更多关于GPU服务器的介绍,请参见GPU服务器产品详情页

  • 容器服务 ACK

    容器服务Kubernetes版(ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。

    更多关于容器服务ACK的介绍,请参见容器服务 ACK产品详情页

  • 专有网络VPC

    专有网络VPC帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP地址范围、网段、路由表和网关等;此外,也可以通过专线、VPN、GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。

    更多关于专有网络VPC的介绍,请参见专有网络VPC产品详情页

  • 应用实时监控服务ARMS

    应用实时监控服务 (Application Real-Time Monitoring Service, 简称ARMS) 是一款应用性能管理产品,包含前端监控,应用监控和Prometheus监控三大子产品,涵盖了浏览器,小程序,APP,分布式应用和容器环境等性能管理,能帮助你实现全栈式的性能监控和端到端的全链路追踪诊断, 让应用运维从未如此轻松高效。

    更多关于应用实时监控服务ARMS的介绍,请参见应用实时监控服务ARMS产品详情页

  • 弹性伸缩

    弹性伸缩(Auto Scaling),是根据用户的业务需求和策略,经济地自动调整弹性计算资源的管理服务。弹性伸缩不仅适合业务量不断波动的应用程序, 同时也适合业务量稳定的应用程序。

    更多关于弹性伸缩的介绍,请参见弹性伸缩产品详情页

详细信息

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践