为部署模型服务时更经济、高效地利用计算资源,模型在线服务(EAS)提供了GPU切分功能。该功能允许将一张物理GPU卡的算力和显存资源,切分给多个服务实例共享使用,从而显著提升GPU利用率并降低部署成本。
适用范围
仅满足以下条件时可配置GPU切分功能:
配置指南
可以在创建或更新服务时配置GPU切分。
通过控制台
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS。
通过新建服务或者更新服务进入服务配置页面。
在资源信息区域,配置以下关键参数,其他参数配置说明,请参见自定义部署。

参数
描述
资源类型
选择EAS资源组或资源配额。
GPU切分
选中该复选框以启用GPU切分功能。
说明若无该选项,请参见为什么没有GPU切分选项。
部署资源
单卡使用显存(GB):必选,每个实例所需的单个GPU显存大小,取值为整型。系统支持实例按显存进行调度,实现多实例共享单卡功能。
重要ml开头的资源规格单卡使用显存单位为GB,ecs开头的资源规格单位为GiB。
单卡算力占比(%):可选,每个实例所需的单个GPU算力比例,取值为1~100之间的整数。系统支持实例按算力进行调度,实现多实例共享单卡功能。
单卡使用显存和单卡算力占比这两个配置项是“且”的关系。例如,设置单卡使用显存为48 GB,单卡算力占比为10%,则表示最多只能用48 GB显存,并且同时最多只能用10%的算力。
参数配置完成后,单击部署或更新。
通过本地客户端
JSON配置文件中关于GPU切分的字段示例如下:
{ "metadata": { "gpu_core_percentage": 5, "gpu_memory": 20 } }gpu_memory:对应控制台的单卡使用显存(GB)。
gpu_core_percentage:对应控制台的单卡算力占比(%)。指定该参数时,必须指定gpu_memory参数,否则该参数不生效。
重要如果使用显存调度,gpu字段需不配置或配置为0。当gpu字段配置为1时,表示实例独占整张GPU卡,此时gpu_memory和gpu_core_percentage字段会被忽略。
参见命令使用说明,使用
create或modify命令创建服务或修改服务配置。
常见问题
Q:为什么在控制台没有看到“GPU切分”选项?
请按以下步骤排查:
确认资源类型选择 EAS资源组或灵骏智算资源配额。
检查所选资源组中是否包含GPU资源(即GPU列是否显示为0)。
检查GPU实例状态是否为"运行中"(非"启动中"、"停止"等状态)。如果资源正在初始化,需要等待资源完全就绪。