配置部署资源

更新时间:
复制为 MD 格式

EAS提供公共资源、EAS资源组和资源配额三种资源类型,满足从测试到生产的不同场景需求。本文介绍如何选择资源类型并配置计算资源与调度策略。

选择资源类型

资源类型

适用场景

计费

功能对比

公共资源

适用于测试或流量有波动大的业务(专属资源搭配弹性资源池)。

  • 先使用,后付费,按需开通。

  • 后付费(按量付费),详情请参见EAS计费说明

  • 使用公共计算资源,无需单独购买,高峰期无法保证稳定的资源分配。

  • 支持CPU、GPU(A10、P4、P100、T4V100卡)

EAS资源组

专属资源组

适合高安全性要求或需独占资源的场景(紧缺资源,可通过购买专属资源来锁定)。

  • 先购买,后使用。

  • 支持预付费(包年包月)和后付费(按量付费),详情请参见EAS计费说明

  • 独享专属计算资源,资源隔离更安全

  • 支持CPU、支持GPU(A10、P4、P100、T4V100卡)

  • 支持GPU切分功能

虚拟资源组

将多种不同类型的资源(公共资源、资源配额、EAS专属资源)组合而成的逻辑资源组。

根据实际调度使用的资源进行计费。

  • 将同一个服务部署在多种不同的资源。

  • 支持设置调度优先级。

资源配额

通用计算2.0

适合需要独享资源、资源隔离的生产场景。

灵骏智算

适合大模型或需要高性能硬件(RDMA高速互联、智算CPFS存储)的场景。

选择建议:

  • 测试和开发:使用公共资源,按需付费,无需前期投入。高峰期可能资源不足,详见公共资源库存不足怎么办

  • 生产环境(稳定业务):使用EAS 专属资源组或资源配额(通用计算2.0),资源独享、性能稳定,支持预付费降低成本。

  • 生产环境(流量波动):使用虚拟资源组,专属资源或资源配额保底,公共资源应对峰值。

  • 大模型或特殊硬件:使用资源配额(灵骏智算),访问高性能硬件。

选择实例规格

根据模型大小和推理负载,选择 CPU 或 GPU 机型规格。

  • 竞价实例:使用公共资源时,可开启竞价模式并设置出价上限,以低于常规实例的价格使用空闲资源。竞价实例可能被回收,适用于对中断不敏感的推理任务。

  • GPU驱动版本:选择 GPU 实例时,可指定 GPU 驱动版本(服务功能>资源配置),以满足特定模型或框架的运行要求。

  • GU 系列机型:PAI 提供的 AI 专属机型,详情请参见PAI GU系列机型使用说明

说明

如果领取了免费资源包,支持在部分地域使用免费机型,详情请参见免费试用领取、使用和释放

配置系统盘

系统盘用于存储运行时产生的临时数据。不同资源类型的默认配置如下:

  • 公共资源:免费提供 30 GiB 系统盘,超出部分按用量付费。

  • EAS 资源组或资源配额:默认 60 GiB 系统盘,修改容量后从宿主机划分。

配置共享内存

共享内存允许容器内的多个进程直接读写同一块内存区域,避免数据复制开销,适用于需要高效进程间通信的场景。

使用多进程推理框架(如 vLLM tensor parallel、多 worker 并发推理)时,建议根据模型大小配置足够的共享内存。

设置副本数

副本数即服务运行的实例数量。建议配置多个副本,避免单点故障导致服务不可用。

配置调度策略

使用 EAS 资源组或资源配额时,可通过以下策略优化资源调度:

  • 弹性资源池:当自有资源不足时,自动使用公共资源(按量付费)扩容以应对突发流量;缩容时优先释放公共资源实例,节约成本。详情请参见弹性资源池

  • 指定节点调度:将服务限定在指定节点上运行。未指定时,非排除节点均可被使用。

  • 高优资源重调度:开启后,系统周期性将实例从低优先级资源(如公共资源)迁移到高优先级资源(如专属资源组),优化成本。适用于滚动更新导致实例临时调度到公共资源、或需要迁移常规实例到竞价实例以节约成本的场景。

  • 资源亲和性调度:使用公共资源组中的灵骏智算资源进行多机分布式推理时,建议在服务功能区域开启资源亲和性调度,将按您填写的 HPN Zone 将实例调度至指定超节点网络域,确保 RDMA 高速互联。

GPU 切分与分布式推理

  • GPU 切分:将一张 GPU 卡的算力和显存切分给多个服务实例共享使用,提升 GPU 利用率,降低部署成本。适用于模型较小或推理负载不高的场景。仅使用EAS资源组和资源配额时支持开启。

  • 多机分布式推理:将单个服务实例部署在多台机器上,突破单机硬件限制,支持超大规模模型的部署与运行。

常见问题

参见资源问题