在多团队协作环境中,合理分配计算资源是确保各团队高效运作的关键。本方案通过创建资源配额并为不同团队分配这些资源,来实现资源的有效管理和利用。
背景信息
场景示例
假设购买AI计算资源(例如总计128卡GPU),用于A、B和C三个团队。其中:
A团队负责推理服务,需要高资源保障。
B团队和C团队分别是训练团队,用来提交训练任务。
B和C团队的训练任务相较于A团队的推理服务优先级更低。即当A团队推理资源不足时,系统可以快速回收用于训练的资源,优先满足推理服务的需求。
B和C团队使用的计算资源量可调整,可以根据实际需求动态增加或减少资源。
B和C团队可以管理各自的资源和任务。
方案介绍
本文以上图场景为例,方案介绍如下:
创建资源配额Quota1(例如128卡GPU),并打开子级算力抢占开关。然后为Quota1创建两个子级资源配额,分别为Quota1.1(例如48卡GPU)和Quota1.2(例如80卡GPU)。如上图所示,Quota1与Quota1.1和Quota1.2形成父子级关系QuotaTree,其中Quota1为父级资源配额,Quota1.1和Quota1.2为子级资源配额。
为团队A创建工作空间workspace-a,并绑定Quota1。在Quota1上部署EAS服务,用于模型推理。
为团队B创建工作空间workspace-b,并绑定Quota1.1。在Quota1.1上创建DLC任务。
为团队C创建工作空间workspace-c,并绑定Quota1.2。在Quota1.2上创建DSW实例,进行模型开发。
操作方法
请准备好所需的AI计算资源(通用计算资源或灵骏智算资源)。具体购买方法,请参见资源池。如果您已购买了AI计算资源,可忽略该步骤。
创建资源配额。
分别创建以下三个工作空间并绑定资源配额。具体操作,请参见创建及管理工作空间。
团队A:工作空间名称为workspace-a;新增关联资源选择Quota1。
团队B:工作空间名称为workspace-b;新增关联资源选择Quota1.1。
团队C:工作空间名称为workspace-c;新增关联资源选择Quota1.2。
为团队A、B和C添加了工作空间管理员权限。具体操作,请参见管理工作空间。您还可以参考附录:角色及权限列表,添加其他相应的权限。
创建推理服务和训练任务。
功能场景
场景一:推理资源不足,抢占训练任务
管理员需要前往资源配额(Quota)页面,单击父级资源配额名称Quota1,然后在概览页面中打开子级算力抢占开关。
开关打开后,当团队A在工作空间workspace-a中,使用Quota1提交新的推理服务时,如果系统发现资源不足(由于团队B和C使用子级资源配额创建了训练任务)。系统将回收团队B和C中正在运行的任务的算力资源,以保障团队A推理服务的运行。
场景二:团队B和团队C的资源再分配
管理员根据团队B和团队C的需求,通过资源配额扩缩容功能,调整Quota1.1和Quota1.2的资源。具体操作,请参见扩缩容资源配额。
例如:将Quota1.1的GPU从48卡扩容到56卡(新增8卡)。
例如:将Quota1.2的GPU从80卡缩容到72卡(减少8卡)。
场景三:团队B和团队C的权限隔离
Quota1.1分配给了团队B的workspace-b,Quota1.2分配给了团队C的workspace-c。团队B和团队C可以在各自的工作空间中管理资源和任务等权限。详情请参见工作空间调度中心。
- 本页导读 (1)
- 背景信息
- 场景示例
- 方案介绍
- 操作方法
- 功能场景
- 场景一:推理资源不足,抢占训练任务
- 场景二:团队B和团队C的资源再分配
- 场景三:团队B和团队C的权限隔离