利用阿里云容器服务ACK部署GPU集群后,出于成本优化考虑,针对集群中GPU利用率不同的应用,选择不同的成本优化方案,可以实现集群的灵活管理,同时整体降低成本。例如,对于集群中GPU利用率不高的应用(例如推理应用),建议选择cGPU技术将一定数量的应用共享一张GPU卡,从而提高资源利用率;对于集群中GPU利用率较高的应用,无需修改。
方案优势
在容器服务ACK中实现共享GPU的灵活拆分。
提高GPU利用率,同时也降低了整体拥有成本。
无需修改应用,可保障多个容器共享同一个GPU,同时可实现彼此间的互相隔离。
部署架构图
选用的产品列表
产品名称 | 说明 |
该服务可免去您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。 | |
该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。 | |
该服务提供了高性能且可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。其整合了阿里云的虚拟化、存储、网络和安全能力,可助力企业高效运行云端Kubernetes容器化应用。 | |
该网络由逻辑网络设备(如虚拟路由器,虚拟交换机)组成,可通过专线、VPN等连接方式与传统数据中心组成一个按需定制的网络环境,实现应用的平滑迁移上云。 | |
该服务作为云原生可观测平台,可覆盖浏览器、小程序、APP、容器等不同可观测环境与场景,帮助企业实现全栈性能监控与端到端追踪诊断,提高监控效率,压降运维工作量。 | |
该服务可根据用户的业务需求和策略,自动调整弹性计算资源的管理服务。 |
最佳实践详情
关于使用ACK服务实现GPU成本优化的更多信息,请参见ACK实现GPU成本优化的最佳实践。
反馈
- 本页导读 (1)
文档反馈