为部署模型服务时更经济、高效地利用计算资源,模型在线服务(EAS)提供了GPU切分功能。该功能允许将一张物理GPU卡的算力和显存资源,切分给多个服务实例共享使用,从而显著提升GPU利用率并降低部署成本。
适用范围
配置GPU切分
可以在创建服务或更新服务时,通过PAI控制台或eascmd客户端配置GPU切分。
通过控制台
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS。
通过新建服务或者更新服务进入服务配置页面。
在资源信息区域,配置以下关键参数,其他参数配置说明,请参见自定义部署。

参数
描述
资源类型
选择EAS资源组或资源配额。
GPU切分
选中该复选框以启用GPU切分功能。
说明选择EAS专属资源组、虚拟资源组或灵骏资源配额之后,才会出现GPU切分的选项。
部署资源
单卡使用显存(GB):必选,每个实例所需的单个GPU显存大小,取值为整型。系统支持实例按显存进行调度,实现多实例共享单卡功能。
重要ml开头的资源规格单卡使用显存单位为GB,ecs开头的资源规格单位为GiB。
单卡算力占比(%):可选,每个实例所需的单个GPU算力比例,取值为1~100之间的整数。系统支持实例按算力进行调度,实现多实例共享单卡功能。
单卡使用显存和单卡算力占比这两个配置项是“且”的关系。例如,设置单卡使用显存为48 GB,单卡算力占比为10%,则表示最多只能用48 GB显存,并且同时最多只能用10%的算力。
参数配置完成后,单击部署或更新。
通过本地客户端
JSON配置文件中关于GPU切分的字段示例如下:
{ "metadata": { "gpu_core_percentage": 5, "gpu_memory": 20 } }gpu_memory:对应控制台的单卡使用显存(GB)。
gpu_core_percentage:对应控制台的单卡算力占比(%)。指定该参数时,必须指定gpu_memory参数,否则该参数不生效。
重要如果使用显存调度,gpu字段需不配置或配置为0。当gpu字段配置为1时,表示实例独占整张GPU卡,此时gpu_memory和gpu_core_percentage字段会被忽略。
参见命令使用说明,使用
create或modify命令创建服务或修改服务配置。