训推一体资源管理

更新时间:
复制 MD 格式

多团队共享GPU集群时,需要按优先级分配算力,确保关键业务(如推理服务)优先获得资源。通过资源配额(Quota),您可以为不同团队划分独立的算力池,并设置抢占规则。

背景信息

场景示例

假设您购买了128GPU,分配给A、B、C三个团队:

  • A团队负责推理服务,需要最高资源保障。

  • B团队和C团队负责模型训练。

  • 训练任务优先级低于推理服务。当A团队推理资源不足时,系统自动回收B、C团队的训练资源,优先保障推理服务。

  • BC团队的算力可动态调整,按需扩容或缩容。

  • BC团队各自独立管理资源和任务,互不干扰。

方案介绍

image

以上图场景为例,操作步骤如下:

  • 创建资源配额Quota1(128GPU),并打开子级算力抢占开关。然后为Quota1创建两个子级配额:Quota1.1(48GPU)和Quota1.2(80GPU)。如上图所示,Quota1Quota1.1、Quota1.2构成父子级关系(QuotaTree),Quota1为父级配额,Quota1.1Quota1.2为子级配额。

  • 为团队A创建工作空间workspace-a,绑定Quota1。在Quota1上部署EAS推理服务。

  • 为团队B创建工作空间workspace-b,绑定Quota1.1。在Quota1.1上创建DLC训练任务。

  • 为团队C创建工作空间workspace-c,绑定Quota1.2。在Quota1.2上创建DSW实例进行模型开发。

操作步骤

  1. 准备AI计算资源(通用计算资源或灵骏智算资源),注意,如果是通用资源池必须创建2.0版本的才可同时应用于EAS、DLC、DSW中。详情请参见资源池

  2. 创建资源配额。

    1. 创建资源配额Quota1,配置以下关键参数。更多说明请参见创建资源配额通用计算资源配额

      • 选择规则/资源(128GPU)。

      • 打开子级算力抢占开关。开启后,父级配额的任务可以抢占子级配额的资源。

    2. 在资源配额Quota1操作列,单击新增子级资源配额,创建以下两个子级配额。具体操作请参见创建父子Quota

      • 资源配额名称为Quota1.1,选择规格/资源(48GPU)。

      • 资源配额名称为Quota1.2,选择规格/资源(80GPU)。

  3. 分别创建以下三个工作空间并绑定资源配额。具体操作请参见创建及管理工作空间

    • 团队A:工作空间名称为workspace-a,关联资源选择Quota1。

    • 团队B:工作空间名称为workspace-b,关联资源选择Quota1.1。

    • 团队C:工作空间名称为workspace-c,关联资源选择Quota1.2。

  4. 为团队A、BC添加工作空间管理员权限。具体操作请参见配置工作空间。您还可以参考附录:角色及权限列表,添加其他权限。

  5. 创建推理服务和训练任务。

    • 团队A在工作空间workspace-a中创建推理服务。具体操作请参见服务部署

    • 团队B在工作空间workspace-b中创建分布式训练(DLC)任务。具体操作请参见创建训练任务

    • 团队C在工作空间workspace-c中创建交互式建模(DSW)实例。具体操作请参见创建DSW实例

功能场景

场景一:推理资源不足,抢占训练任务

管理员前往资源配额(Quota)页面,单击父级资源配额Quota1,在概览页面中打开子级算力抢占开关。

开关打开后,当团队A使用Quota1提交新的推理服务时,如果资源不足(因团队BC的训练任务占用了资源),系统将自动回收训练任务的算力,优先保障推理服务运行。

场景二:团队B和团队C的资源再分配

管理员根据团队BC的需求,通过扩缩容功能调整Quota1.1Quota1.2的资源。具体操作请参见Quota扩缩容。在资源配额(Quota)管理页面的资源列表中,找到目标Quota,单击操作列的扩缩容

  • Quota1.148卡扩容到56卡(新增8卡)。

  • Quota1.280卡缩容到72卡(减少8卡)。

场景三:团队B和团队C的权限隔离

Quota1.1分配给团队Bworkspace-b,Quota1.2分配给团队Cworkspace-c。团队BC在各自的工作空间中独立管理资源和任务。详情请参见工作空间调度中心。管理员可在工作空间配置页面,选择调度配置页签,在资源使用区域配置资源使用角色:在表格中为指定资源配额选择可使用角色(可选基础角色自定义角色非工作空间成员,并可勾选RAM授权用户),单击+添加新增配置行,完成后单击保存

相关文档