异构计算集群概述

更新时间: 2025-04-17 17:00:34

阿里云容器服务 Kubernetes 版ACK支持对各种异构计算资源进行统一调度和运维管理,能够显著提高异构计算集群资源的使用效率。本文介绍ACK支持的异构计算集群。

异构计算集群介绍

阿里云ACK支持对GPU、ASIC和RDMA异构资源进行统一调度和运维管理,提高集群资源的使用效率。ACK支持的异构计算集群及具体功能如下。

异构资源

功能描述

GPU

ACK支持创建带有T4、P100、V100等市场主流GPU卡的集群。

  • 支持以GPU卡为单位申请集群GPU资源。

  • 支持基于GPU指标实现弹性伸缩

  • 支持共享GPU调度算力隔离。阿里云自研的GPU共享调度技术可以将多个模型推理应用同时运行在同一GPU上,从而显著降低成本。借助阿里云自主研发的cGPU方案,在无需修改应用容器的前提下,提供GPU显存和算力的隔离能力,提高应用的稳定性,支持的GPU设备分配策略如下:

    • 单Pod单GPU卡共享:常用于模型推理场景。

    • 单Pod多GPU卡共享:常用于分布式训练开发。

    • Binpack分配策略:多个Pod会优先共享使用同一GPU卡,适用于需要提升GPU卡利用率的场景。

    • Spread分配策略:多个Pod会尽量分散使用不同GPU卡,适用于GPU高可用场景。

  • 支持GPU拓扑感知调度功能:通过Node节点获取异构计算资源的拓扑结构,调度器端基于节点的拓扑信息,完成调度决策,为NVLINK、PCIe Switch、QPI和RDMA NIC提供最佳的调度选择,实现最优的运行性能。

  • 支持GPU资源监控:提供节点和应用视角的监控指标,设备(软硬件)异常自动检测和告警,支持独占GPU和共享GPU场景。

ASIC

ACK支持创建带有NETINT ASIC设备的集群,支持以单张NETINT ASIC卡为单位申请集群资源。

eRDMA

ACK支持创建带有eRDMA设备的集群。

  • 支持通过Arena提交使用eRDMA设备的分布式深度学习训练任务。

  • 支持对网络带宽有高要求的任务,如分布式深度学习训练任务等。

ACK支持的GPU实例规格

ACK支持多种GPU计算型实例规格族。如需在ACK集群中添加GPU节点,您需在下方列举的ECS实例规格族中选择。

说明

ACK目前不支持在控制台选择vGPU实例作为集群节点,详情请参见阿里云容器服务是否支持GPU虚拟化型(vGPU)实例?

ACK支持的ASIC实例规格

如需在ACK集群中添加ASIC节点,您可以选择实例规格ecs.video-trans.26xhevc

ACK支持的eRDMA实例规格

ACK支持多种eRDMA计算型实例规格族,您可在下方列举的ECS实例规格族中进行选择。更多详情,请参见在企业级实例上启用eRDMA在GPU实例上启用eRDMA

上一篇: 工作负载伸缩FAQ 下一篇: ACK支持的GPU实例规格族
阿里云首页 容器服务Kubernetes版 相关技术圈