文档

使用ACK服务实现GPU的成本优化

更新时间:

利用阿里云容器服务ACK部署GPU集群后,出于成本优化考虑,针对集群中GPU利用率不同的应用,选择不同的成本优化方案,可以实现集群的灵活管理,同时整体降低成本。例如,对于集群中GPU利用率不高的应用(例如推理应用),建议选择cGPU技术将一定数量的应用共享一张GPU卡,从而提高资源利用率;对于集群中GPU利用率较高的应用,无需修改。

方案优势

  • 在容器服务ACK中实现共享GPU的灵活拆分。

  • 提高GPU利用率,同时也降低了整体拥有成本。

  • 无需修改应用,可保障多个容器共享同一个GPU,同时可实现彼此间的互相隔离。

部署架构图

ACK

选用的产品列表

产品名称

说明

云服务器ECS

该服务可免去您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。

GPU云服务器

该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。

容器服务ACK

该服务提供了高性能且可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。其整合了阿里云的虚拟化、存储、网络和安全能力,可助力企业高效运行云端Kubernetes容器化应用。

专有网络VPC

该网络由逻辑网络设备(如虚拟路由器,虚拟交换机)组成,可通过专线、VPN等连接方式与传统数据中心组成一个按需定制的网络环境,实现应用的平滑迁移上云。

应用实时监控服务ARMS

该服务作为云原生可观测平台,可覆盖浏览器、小程序、APP、容器等不同可观测环境与场景,帮助企业实现全栈性能监控与端到端追踪诊断,提高监控效率,压降运维工作量。

弹性伸缩

该服务可根据用户的业务需求和策略,自动调整弹性计算资源的管理服务。

最佳实践详情

关于使用ACK服务实现GPU成本优化的更多信息,请参见ACK实现GPU成本优化的最佳实践

  • 本页导读 (1)