GPU切分

为部署模型服务时更经济、高效地利用计算资源,模型在线服务(EAS)提供了GPU切分功能。该功能允许将一张物理GPU卡的算力和显存资源,切分给多个服务实例共享使用,从而显著提升GPU利用率并降低部署成本。

适用范围

仅支持使用EAS资源组灵骏智算资源配时配置GPU切分功能。

配置GPU切分

可以在创建服务或更新服务时,通过PAI控制台或eascmd客户端配置GPU切分。

通过控制台

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

  2. 通过新建服务或者更新服务进入服务配置页面。

  3. 资源信息区域,配置以下关键参数,其他参数配置说明,请参见自定义部署

    image

    参数

    描述

    资源类型

    选择EAS资源组资源配额

    GPU切分

    选中该复选框以启用GPU切分功能。

    说明

    选择EAS专属资源组、虚拟资源组或灵骏资源配额之后,才会出现GPU切分的选项。

    部署资源

    • 单卡使用显存(GB):必选,每个实例所需的单个GPU显存大小,取值为整型。系统支持实例按显存进行调度,实现多实例共享单卡功能。

      重要

      ml开头的资源规格单卡使用显存单位为GB,ecs开头的资源规格单位为GiB

    • 单卡算力占比(%):可选,每个实例所需的单个GPU算力比例,取值为1~100之间的整数。系统支持实例按算力进行调度,实现多实例共享单卡功能。

    单卡使用显存单卡算力占比这两个配置项是“且”的关系。例如,设置单卡使用显存为48 GB,单卡算力占比为10%,则表示最多只能用48 GB显存,并且同时最多只能用10%的算力。

  4. 参数配置完成后,单击部署更新

通过本地客户端

  1. JSON配置文件中关于GPU切分的字段示例如下:

    {
        "metadata": {
            "gpu_core_percentage": 5,
            "gpu_memory": 20
        }
    }
    • gpu_memory:对应控制台的单卡使用显存(GB)

    • gpu_core_percentage:对应控制台的单卡算力占比(%)。指定该参数时,必须指定gpu_memory参数,否则该参数不生效。

    重要

    如果使用显存调度,gpu字段需不配置或配置为0。当gpu字段配置为1时,表示实例独占整张GPU卡,此时gpu_memorygpu_core_percentage字段会被忽略。

  2. 参见命令使用说明,使用create 或 modify 命令创建服务或修改服务配置。