实例类型规格并发度配置指南-函数计算-阿里云

在通用计算场景中，例如 Web 服务和数据处理，函数计算通常只需使用基础的 CPU 实例即可满足需求。然而，在需要进行大规模并行计算或深度学习任务的场景下，如音视频处理、人工智能（AI）推理及图像处理等，GPU 实例则能够显著提升计算效率。

针对 GPU 实例，函数计算提供了两种实例类型：弹性实例和常驻实例。您可以根据具体的业务需求选择合适的实例类型与规格，在确保业务稳定运行的同时，最大限度地提升资源利用率和性能表现。

实例类型选型

针对CPU函数，仅支持弹性实例。针对GPU函数，您可以根据业务资源利用率、对延时敏感程度和对费用的稳定性要求，选择弹性实例或常驻实例，详细选型指引请参见以下流程图。

说明

仅支持为Ada、Ada.2、Ada.3、Hopper和Xpu.1系列卡型的GPU函数绑定常驻实例。

弹性实例

如果设置函数的最小实例数为0，将按请求量自动弹性伸缩，无请求后实例自动回收，即按使用量计费，不使用不收费，能够做到最大程度降本。业务请求越频繁，资源利用率越高，相对虚拟机弹性的降本幅度越高。

是否存在冷启动

是。针对时延敏感业务，为了解决冷启动问题，可以设置最小实例数≥1，提前锁定弹性资源，当请求到达时，迅速唤醒实例执行请求。

计费说明（后付费）

函数的使用费用由弹性实例（活跃）和弹性实例（浅休眠（原闲置））费用构成，如果设置最小实例数≥1，建议开启浅休眠（原闲置）模式开关。弹性实例（浅休眠（原闲置））状态下vCPU资源使用不收费，GPU资源使用仅收1/5费用，使用费用远远小于弹性实例（活跃）状态的费用。

关于弹性实例（活跃）和弹性实例（浅休眠（原闲置））的场景划分，请参见弹性实例。

常驻实例

仅适用于GPU函数。用户需提前购买常驻资源池，然后基于常驻资源池为指定函数分配指定数量和卡型的常驻实例，从而实现使用成本的可控与固定。适用于业务资源利用率高、时延要求高或对费用稳定性有较高要求的场景。

是否存在冷启动

否。使用常驻实例时，函数最多可以同时处理的请求数=被分配的常驻实例数×实例并发数，超出的请求将被流控，而未超出的请求，可以实现实时响应，彻底消除冷启动。

计费说明（预付费）

函数费用包括已购买的所有常驻资源池的预付费费用。

实例规格

CPU实例

vCPU（核）

内存规格（MB）

代码包大小上限（GB）

函数执行时长上限（s）

磁盘大小上限（GB）

带宽能力上限（Gbps）

0.05~16

取值说明：必须为0.05的倍数。

128~32768

取值说明：必须为64的倍数。

86400

取值说明：

512 MB，默认值。
10 GB。

说明

vCPU大小（单位为核）与内存大小（单位为GB）的比例必须设置在1∶1到1∶4之间。

GPU实例

说明

fc.gpu.tesla.1实例规格的性能与NVIDIA T4性能基本一致。

实例规格	支持的实例类型	整卡显存（GB）	整卡算力（TFLOPS）		可选切分规格
实例规格	支持的实例类型	整卡显存（GB）	FP16算力	FP32算力	vGPU显存（MB）	vGPU算力（卡）	vCPU（核）	内存规格（MB）
fc.gpu.tesla.1	弹性实例	16	65	8	16384（对应16 GB）取值说明：仅支持整卡显存，若购买多卡，所有资源乘以多卡的倍数。	默认分配整卡算力。说明：由函数计算系统自动分配，无需手动配置。	取值为0.05~（vGPU显存（GB）/2）。取值说明：必须为0.05的倍数。	取值为128~（vGPU显存（GB）*2048）。取值说明：必须为64的倍数。
fc.gpu.ada.1	弹性实例常驻实例	48	119	60	49152（对应48 GB）取值说明：仅支持整卡显存，若购买多卡，所有资源乘以多卡的倍数。		取值为4、8或16。	取值为32768、65536或98304。
fc.gpu.ada.2	弹性实例常驻实例	24	166	83	24576（对应24 GB）取值说明：仅支持整卡显存，若购买多卡，所有资源乘以多卡的倍数。		取值为8或16。	取值为32768或65536。
fc.gpu.ada.3	弹性实例常驻实例	48	148	73.54	49152（对应48 GB）取值说明：仅支持整卡显存，若购买多卡，所有资源乘以多卡的倍数。		取值为8或16。	取值为65536或98304。
fc.gpu.hopper.1	弹性实例常驻实例	96	148	44	98304（对应96 GB）取值说明：仅支持整卡显存，若购买多卡，所有资源乘以多卡的倍数。		16	取值为98304。
fc.gpu.xpu.1	弹性实例常驻实例	96	123	61.5	98304（对应96 GB）取值说明：仅支持整卡显存，若购买多卡，所有资源乘以多卡的倍数。		16	取值为98304。

函数计算GPU实例同时支持以下资源规格。

镜像大小（GB）

函数执行时长上限（s）

磁盘大小上限（GB）

带宽能力上限（Gbps）

ACR企业版（标准版）：15

ACR企业版（高级版）：15

ACR企业版（基础版）：15

ACR个人版（免费）：15

86400

说明

实例规格设置为g1等同于设置为fc.gpu.tesla.1。
目前支持Tesla系列GPU实例的地域包括华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）、华南1（深圳）、日本（东京）、美国（弗吉尼亚）和新加坡。
目前支持Ada系列GPU实例的地域包括华北2（北京）、华东1（杭州）、华东2（上海）、华南1（深圳）、新加坡和美国（弗吉尼亚）。

GPU实例规格与实例并发度的关系

Ada.1整卡显存为48GB，Tesla系列整卡显存为16GB，仅支持整卡显存，则单卡同时承载1个GPU容器，由于各地域的GPU卡数配额默认最大为30，地域级别最多可同时承载30个GPU容器。

当GPU函数实例并发度为1时，该函数在地域级别的推理并发度为30。
当GPU函数实例并发度为5时，该函数在地域级别的推理并发度为150。

单实例多并发

如果您希望提高实例资源利用率，建议根据业务对资源的诉求，配置您的实例为单实例多并发。在这种方案下，当多个任务同时在一个实例上执行时，CPU或者内存将被抢占式共享，有效提高资源利用率。更多信息，请参见配置单实例并发度。

单实例单并发执行时长

一个实例执行一个请求时，执行时长的计量是从请求到达实例开始，到请求执行完毕为止。

单实例多并发执行时长

一个实例并发执行多个请求时，执行时长的计量是从第一个请求到达实例开始，到最后一个请求执行完毕为止。并发执行请求时，可以复用资源节省费用。

实例类型和规格

实例类型选型

弹性实例

是否存在冷启动

计费说明（后付费）

常驻实例

是否存在冷启动

计费说明（预付费）

实例规格

GPU实例规格与实例并发度的关系

单实例多并发

单实例单并发执行时长

单实例多并发执行时长

相关文档