GPU切分

更新时间:
复制为 MD 格式

为部署模型服务时更经济、高效地利用计算资源,模型在线服务(EAS)提供了GPU切分功能。该功能允许将一张物理GPU卡的算力和显存资源,切分给多个服务实例共享使用,从而显著提升GPU利用率并降低部署成本。

适用范围

仅满足以下条件时可配置GPU切分功能:

  • 资源类型:使用EAS资源组灵骏智算资源配额

  • 实例状态:资源组中的GPU实例必须处于运行中状态(非启动中、停止等状态)。

    说明

    首次购买GPU机器时,初始化通常需要8-10分钟,请耐心等待实例完全就绪后再进行配置。

配置指南

可以在创建或更新服务时配置GPU切分。

通过控制台

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

  2. 通过新建服务或者更新服务进入服务配置页面。

  3. 资源信息区域,配置以下关键参数,其他参数配置说明,请参见自定义部署

    image

    参数

    描述

    资源类型

    选择EAS资源组资源配额

    GPU切分

    选中该复选框以启用GPU切分功能。

    说明

    若无该选项,请参见为什么没有GPU切分选项

    部署资源

    • 单卡使用显存(GB):必选,每个实例所需的单个GPU显存大小,取值为整型。系统支持实例按显存进行调度,实现多实例共享单卡功能。

      重要

      ml开头的资源规格单卡使用显存单位为GB,ecs开头的资源规格单位为GiB

    • 单卡算力占比(%):可选,每个实例所需的单个GPU算力比例,取值为1~100之间的整数。系统支持实例按算力进行调度,实现多实例共享单卡功能。

    单卡使用显存单卡算力占比这两个配置项是“且”的关系。例如,设置单卡使用显存为48 GB,单卡算力占比为10%,则表示最多只能用48 GB显存,并且同时最多只能用10%的算力。

  4. 参数配置完成后,单击部署更新

通过本地客户端

  1. JSON配置文件中关于GPU切分的字段示例如下:

    {
        "metadata": {
            "gpu_core_percentage": 5,
            "gpu_memory": 20
        }
    }
    • gpu_memory:对应控制台的单卡使用显存(GB)

    • gpu_core_percentage:对应控制台的单卡算力占比(%)。指定该参数时,必须指定gpu_memory参数,否则该参数不生效。

    重要

    如果使用显存调度,gpu字段需不配置或配置为0。当gpu字段配置为1时,表示实例独占整张GPU卡,此时gpu_memorygpu_core_percentage字段会被忽略。

  2. 参见命令使用说明,使用create 或 modify 命令创建服务或修改服务配置。

常见问题

Q:为什么在控制台没有看到“GPU切分”选项?

请按以下步骤排查:

  1. 确认资源类型选择 EAS资源组灵骏智算资源配额

  2. 检查所选资源组中是否包含GPU资源(即GPU列是否显示为0)。

  3. 检查GPU实例状态是否为"运行中"(非"启动中"、"停止"等状态)。如果资源正在初始化,需要等待资源完全就绪。