阿里云容器计算服务 ACS(Container Compute Service)支持对各种异构计算资源进行统一调度,为用户提供Serverless化使用异构计算资源的形式,降低异构计算集群的运维复杂性。本文介绍ACS支持的异构计算资源使用方式。
ACS GPU典型工作流
ACS为AI工作负载提供了一种极具弹性与成本效益的解决方案,全面覆盖从数据预处理、模型训练到推理部署的完整生命周期。它将Serverless按需使用、自动扩缩容的特性与强大的GPU计算能力相结合,帮助开发者和数据科学家专注于业务逻辑与算法创新,而非底层资源管理。
数据预处理阶段: 对于大规模数据集的清洗、转换和增强任务,您可以利用Serverless CPU的并行处理能力,按需启动大量CPU实例来加速计算。任务完成后,资源立即释放,无需为空闲时间付费。这对于处理周期性或突发性的数据批处理任务尤其高效,能显著缩短数据准备周期。
模型训练阶段: 在模型训练这一计算密集型环节,Serverless GPU允许您根据模型大小和收敛速度的需求,灵活选择所需规格的GPU实例。训练任务按实际执行时长计费,精准到秒,彻底消除了传统模式下GPU服务器的闲置成本,特别适合实验性调参和迭代训练。
考虑到模型训练工作负载对资源确定性和灵活性的需求,可以使用GPU-HPN容量预留方案来预定GPU资源。
推理部署阶段: 模型训练完成后,可以将其无缝部署为在线推理服务。ACS的Serverless架构能够根据实时请求流量,在秒级内自动扩缩容GPU实例,甚至可以缩容至零。这意味着在没有流量时,您不承担任何资源成本。这种极致的弹性非常适合流量波动大或有明显波峰波谷的AI应用场景,如图像识别、自然语言处理等,满足服务高可用的同时最大化节约成本。
通过ACS Serverless GPU,您可以在一个统一、无缝的平台上高效完成整个AI工作流,实现资源的按需分配与成本的最优化,加速AI应用的开发与落地。
ACS支持的GPU卡型
GPU卡型 | 显存 | 支持的GPU卡数量 | 支持RDMA |
96GB | 1/2/4/8 | 是 | |
141GB | 1/2/4/8 | 是 | |
48GB | 1/2/4/8 | 否 | |
141GB | 8 | 是 | |
96GB | 1/2/4/8/16 | 是 | |
48GB | 1/2/4/8 | 否 | |
16GB | 1/2 | 否 | |
24GB | 1/2/4/8 | 否 | |
32GB | 1/2/4/8 | 否 |
关于GPU卡型的更多详情,请参见ACS支持的GPU规格族。
ACS GPU资源支持的可用区
可用区 | 支持的GPU卡型 |
cn-wulanchabu-a | GU8TF, L20, G49E |
cn-wulanchabu-b | G59 |
cn-wulanchabu-c | P16EN |
cn-beijing-d | GU8TF, GU8TEF, P16EN |
cn-beijing-i | A10 |
cn-beijing-l | L20, G49E, G59 |
cn-shanghai-e | G59 |
cn-shanghai-f | GU8TF, GU8TEF, P16EN |
cn-shanghai-l | L20, G49E, T4 |
cn-shanghai-n | L20 |
cn-shanghai-o | P16EN |
cn-hangzhou-b | GU8TF, L20, G49E, P16EN, G59 |
cn-hangzhou-i | T4 |
cn-shenzhen-c | L20 |
cn-shenzhen-d | GU8TEF, G49E, G59 |
cn-shenzhen-e | T4 |
cn-hongkong-d | GU8TEF |
ap-southeast-1 | GU8TF, L20, L20X |