为EAS服务配置GPU共享实现单卡多实例-人工智能平台 PAI-阿里云

在您使用专属资源组或灵骏智算资源配额部署服务时，EAS提供了GPU共享功能，以便充分利用资源。您只需在部署服务时打开GPU共享开关，系统便会在服务中部署虚拟化的GPU，EAS可以根据您配置的算力占比和使用显存来指定每个实例所需的资源。本文为您介绍如何配置GPU共享功能。

前提条件

仅支持使用EAS资源组或创建资源配额时配置GPU共享功能。

创建服务时配置GPU共享

通过控制台

登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入EAS。
单击部署服务，然后在自定义模型部署区域，单击自定义部署。

在资源信息区域，配置以下关键参数，其他参数配置说明，请参见控制台自定义部署参数说明。

参数	描述
资源类型	选择EAS资源组或资源配额。
GPU共享	选中GPU共享复选框。说明选择EAS专属资源组、虚拟资源组或灵骏资源配额之后，才会出现GPU共享的选项。
部署资源	单卡使用显存（GB）：必选，每个实例所需的单个GPU显存数量，取值为整型，单位为GB。系统支持实例按显存进行调度，实现单卡共享多实例功能。当前显存未开启严格隔离，需自行控制各实例的显存使用量，避免超出申请量。单卡算力占比（%）：可选，每个实例所需的单个GPU算力比例，取值为1~100之间的整数。例如填写10，则表示单个GPU的10%算力。系统支持实例按算力进行调度，实现单卡共享多实例功能。单卡使用显存和单卡算力占比这两个配置项是“且”的关系，例如，设置单卡使用显存为48 GB，单卡算力占比为10%，则表示最多只能用48 GB显存，并且同时最多只能用10%的算力。

参数配置完成后，单击部署。

通过本地客户端

下载并认证客户端，以Windows 64版本为例。

在客户端文件所在目录新建JSON格式的文件，命名为service.json，文件内容示例如下。

{
    "containers": [
        {
            "image": "eas-registry-vpc.cn-beijing.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4",
            "port": 8000,
            "script": "python webui/webui_server.py --port=8000 --model-path=Qwen/Qwen1.5-7B-Chat"
        }
    ],
    "metadata": {
        "cpu": 8,
        "enable_webservice": true,
        "gpu_core_percentage": 5,
        "gpu_memory": 20,
        "instance": 1,
        "memory": 20000,
        "name": "testchatglm",
        "resource": "eas-r-fky7kxiq4l2zzt****",
        "resource_burstable": false
    },
    "name": "test"
}

其中关键参数说明如下。其他参数配置说明，请参见JSON部署参数说明。

参数

描述

gpu_memory

每个实例所需的GPU显存数量，取值为整型，单位为GB。

系统支持实例按显存进行调度，实现单卡共享多实例功能。如果使用显存调度，则需要将gpu字段配置为0。当gpu字段配置为1时，表示实例独占整张GPU卡，此时gpu_memory字段会被忽略。

重要

当前显存未开启严格隔离，您需自行控制各实例的显存使用量，不能超出申请量，避免出现显存内存溢出。

gpu_core_percentage

每个实例所需的单个GPU算力比例，取值为1~100之间的整数，单位为百分比。例如填写10，代表的是单个GPU的10%算力。

系统支持实例按算力进行调度，实现单卡共享多实例功能。另外指定该参数时，必须指定gpu_memory参数，否则该参数不生效。

打开终端工具，在JSON文件所在目录，使用以下命令创建服务。更多操作说明，请参见命令使用说明。
```
eascmdwin64.exe create <service.json>
```
其中：<service.json>需要替换为您创建的JSON文件名称。

更新服务使用GPU共享

如果您在使用专属资源组部署服务时没有使用GPU共享功能，您可以通过更新服务配置来开启GPU共享功能。

通过控制台更新服务使用GPU共享

在模型在线服务（EAS）页面，单击目标服务操作列下的更新。
在更新服务页面的资源信息区域，配置资源类型、GPU共享、部署资源参数。详情请参见通过控制台。
参数配置完成后，单击更新。

通过本地客户端更新服务使用GPU共享

下载并认证客户端，以Windows 64版本为例。
在客户端文件所在目录新建JSON格式的文件，命名为instances.json，文件内容示例如下。
```
"metadata": {
        "gpu_memory": 2,
        "gpu_core_percentage": 5
    }
```
其中参数配置说明，请参见通过本地客户端。
打开终端工具，在JSON文件所在目录，使用以下命令修改EAS服务使用GPU共享功能。
```
eascmdwin64.exe modify <service_name> -s <instances.json>
```
其中：<service_name>需要替换为EAS服务名称；<instances.json>需要替换为新建的JSON文件名称。