ACS GPU概述

阿里云容器计算服务 ACS(Container Compute Service)支持对各种异构计算资源进行统一调度,为用户提供Serverless化使用异构计算资源的形式,降低异构计算集群的运维复杂性。本文介绍ACS支持的异构计算资源使用方式。

ACS GPU典型工作流

ACSAI工作负载提供了一种极具弹性与成本效益的解决方案,全面覆盖从数据预处理、模型训练到推理部署的完整生命周期。它将Serverless按需使用、自动扩缩容的特性与强大的GPU计算能力相结合,帮助开发者和数据科学家专注于业务逻辑与算法创新,而非底层资源管理。

  1. 数据预处理阶段: 对于大规模数据集的清洗、转换和增强任务,您可以利用Serverless CPU的并行处理能力,按需启动大量CPU实例来加速计算。任务完成后,资源立即释放,无需为空闲时间付费。这对于处理周期性或突发性的数据批处理任务尤其高效,能显著缩短数据准备周期。

  2. 模型训练阶段: 在模型训练这一计算密集型环节,Serverless GPU允许您根据模型大小和收敛速度的需求,灵活选择所需规格的GPU实例。训练任务按实际执行时长计费,精准到秒,彻底消除了传统模式下GPU服务器的闲置成本,特别适合实验性调参和迭代训练。

    考虑到模型训练工作负载对资源确定性和灵活性的需求,可以使用GPU-HPN容量预留方案来预定GPU资源。

  3. 推理部署阶段: 模型训练完成后,可以将其无缝部署为在线推理服务。ACSServerless架构能够根据实时请求流量,在秒级内自动扩缩容GPU实例,甚至可以缩容至零。这意味着在没有流量时,您不承担任何资源成本。这种极致的弹性非常适合流量波动大或有明显波峰波谷的AI应用场景,如图像识别、自然语言处理等,满足服务高可用的同时最大化节约成本。

通过ACS Serverless GPU,您可以在一个统一、无缝的平台上高效完成整个AI工作流,实现资源的按需分配与成本的最优化,加速AI应用的开发与落地。

image

ACS支持的GPU卡型

GPU卡型

显存

支持的GPU卡数量

支持RDMA

GU8TF

96GB

1/2/4/8

GU8TEF

141GB

1/2/4/8

L20(GN8IS)

48GB

1/2/4/8

L20X(GX8SF)

141GB

8

P16EN

96GB

1/2/4/8/16

G49E

48GB

1/2/4/8

T4

16GB

1/2

A10

24GB

1/2/4/8

G59

32GB

1/2/4/8

关于GPU卡型的更多详情,请参见ACS支持的GPU规格族

ACS GPU资源支持的可用区

可用区

支持的GPU卡型

cn-wulanchabu-a

GU8TF, L20, G49E

cn-wulanchabu-b

G59

cn-wulanchabu-c

P16EN

cn-beijing-d

GU8TF, GU8TEF, P16EN

cn-beijing-i

A10

cn-beijing-l

L20, G49E, G59

cn-shanghai-e

G59

cn-shanghai-f

GU8TF, GU8TEF, P16EN

cn-shanghai-l

L20, G49E, T4

cn-shanghai-n

L20

cn-shanghai-o

P16EN

cn-hangzhou-b

GU8TF, L20, G49E, P16EN, G59

cn-hangzhou-i

T4

cn-shenzhen-c

L20

cn-shenzhen-d

GU8TEF, G49E, G59

cn-shenzhen-e

T4

cn-hongkong-d

GU8TEF

ap-southeast-1

GU8TF, L20, L20X

ACS GPU容量预留

ACS GPU算力支持的集群形态

ACS GPU资源调度

ACS GPU监控

ACS GPU故障诊断

GPU-HPN节点故障监控和恢复