多团队共享GPU集群时,需要按优先级分配算力,确保关键业务(如推理服务)优先获得资源。通过资源配额(Quota),您可以为不同团队划分独立的算力池,并设置抢占规则。
背景信息
场景示例
假设您购买了128卡GPU,分配给A、B、C三个团队:
A团队负责推理服务,需要最高资源保障。
B团队和C团队负责模型训练。
训练任务优先级低于推理服务。当A团队推理资源不足时,系统自动回收B、C团队的训练资源,优先保障推理服务。
B和C团队的算力可动态调整,按需扩容或缩容。
B和C团队各自独立管理资源和任务,互不干扰。
方案介绍
以上图场景为例,操作步骤如下:
创建资源配额Quota1(128卡GPU),并打开子级算力抢占开关。然后为Quota1创建两个子级配额:Quota1.1(48卡GPU)和Quota1.2(80卡GPU)。如上图所示,Quota1与Quota1.1、Quota1.2构成父子级关系(QuotaTree),Quota1为父级配额,Quota1.1和Quota1.2为子级配额。
为团队A创建工作空间workspace-a,绑定Quota1。在Quota1上部署EAS推理服务。
为团队B创建工作空间workspace-b,绑定Quota1.1。在Quota1.1上创建DLC训练任务。
为团队C创建工作空间workspace-c,绑定Quota1.2。在Quota1.2上创建DSW实例进行模型开发。
操作步骤
准备AI计算资源(通用计算资源或灵骏智算资源),注意,如果是通用资源池必须创建2.0版本的才可同时应用于EAS、DLC、DSW中。详情请参见资源池。
创建资源配额。
分别创建以下三个工作空间并绑定资源配额。具体操作请参见创建及管理工作空间。
团队A:工作空间名称为workspace-a,关联资源选择Quota1。
团队B:工作空间名称为workspace-b,关联资源选择Quota1.1。
团队C:工作空间名称为workspace-c,关联资源选择Quota1.2。
为团队A、B和C添加工作空间管理员权限。具体操作请参见配置工作空间。您还可以参考附录:角色及权限列表,添加其他权限。
创建推理服务和训练任务。
功能场景
场景一:推理资源不足,抢占训练任务
管理员前往资源配额(Quota)页面,单击父级资源配额Quota1,在概览页面中打开子级算力抢占开关。
开关打开后,当团队A使用Quota1提交新的推理服务时,如果资源不足(因团队B和C的训练任务占用了资源),系统将自动回收训练任务的算力,优先保障推理服务运行。
场景二:团队B和团队C的资源再分配
管理员根据团队B和C的需求,通过扩缩容功能调整Quota1.1和Quota1.2的资源。具体操作请参见Quota扩缩容。在资源配额(Quota)管理页面的资源列表中,找到目标Quota,单击操作列的扩缩容。
将Quota1.1从48卡扩容到56卡(新增8卡)。
将Quota1.2从80卡缩容到72卡(减少8卡)。
场景三:团队B和团队C的权限隔离
Quota1.1分配给团队B的workspace-b,Quota1.2分配给团队C的workspace-c。团队B和C在各自的工作空间中独立管理资源和任务。详情请参见工作空间调度中心。管理员可在工作空间配置页面,选择调度配置页签,在资源使用区域配置资源使用角色:在表格中为指定资源配额选择可使用角色(可选基础角色、自定义角色或非工作空间成员,并可勾选RAM授权用户),单击+添加新增配置行,完成后单击保存。