训推一体资源管理

更新时间:2025-02-25 05:58:46

在多团队协作环境中,合理分配计算资源是确保各团队高效运作的关键。本方案通过创建资源配额并为不同团队分配这些资源,来实现资源的有效管理和利用。

背景信息

场景示例

假设购买AI计算资源(例如总计128GPU),用于A、BC三个团队。其中:

  • A团队负责推理服务,需要高资源保障。

  • B团队和C团队分别是训练团队,用来提交训练任务。

  • BC团队的训练任务相较于A团队的推理服务优先级更低。即当A团队推理资源不足时,系统可以快速回收用于训练的资源,优先满足推理服务的需求。

  • BC团队使用的计算资源量可调整,可以根据实际需求动态增加或减少资源。

  • BC团队可以管理各自的资源和任务。

方案介绍

image

本文以上图场景为例,方案介绍如下:

  • 创建资源配额Quota1(例如128GPU),并打开子级算力抢占开关。然后为Quota1创建两个子级资源配额,分别为Quota1.1(例如48GPU)和Quota1.2(例如80GPU)。如上图所示,Quota1Quota1.1Quota1.2形成父子级关系QuotaTree,其中Quota1为父级资源配额,Quota1.1Quota1.2为子级资源配额。

  • 为团队A创建工作空间workspace-a,并绑定Quota1。在Quota1上部署EAS服务,用于模型推理。

  • 为团队B创建工作空间workspace-b,并绑定Quota1.1。在Quota1.1上创建DLC任务。

  • 为团队C创建工作空间workspace-c,并绑定Quota1.2。在Quota1.2上创建DSW实例,进行模型开发。

操作方法

  1. 请准备好所需的AI计算资源(通用计算资源或灵骏智算资源)。具体购买方法,请参见资源池。如果您已购买了AI计算资源,可忽略该步骤。

  2. 创建资源配额。

    1. 创建资源配额Quota1,并配置以下关键参数,更多配置说明,请参见灵骏智算资源配额通用计算资源配额

      • 选择规则/资源(例如128GPU)。

      • 打开子级算力抢占开关。

    2. 在资源配额Quota1操作列,单击新增子级资源配额,分别创建以下两个子级资源规格。具体操作,请参见新增子级资源配额

      • 资源配额名称为Quota1.1,并选择规格/资源(例如48GPU)。

      • 资源配额名称为Quota1.2,并选择规格/资源(例如80GPU)。

  3. 分别创建以下三个工作空间并绑定资源配额。具体操作,请参见创建及管理工作空间

    • 团队A:工作空间名称为workspace-a;新增关联资源选择Quota1。

    • 团队B:工作空间名称为workspace-b;新增关联资源选择Quota1.1。

    • 团队C:工作空间名称为workspace-c;新增关联资源选择Quota1.2。

  4. 为团队A、BC添加了工作空间管理员权限。具体操作,请参见管理工作空间。您还可以参考附录:角色及权限列表,添加其他相应的权限。

  5. 创建推理服务和训练任务。

    • 团队A在工作空间workspace-a中创建推理服务。具体操作,请参见服务部署

    • 团队B在工作空间workspace-b中创建分布式训练(DLC)任务。具体操作,请参见创建训练任务

    • 团队C在工作空间workspace-c中创建交互式建模(DSW)实例。具体操作,请参见创建DSW实例

功能场景

场景一:推理资源不足,抢占训练任务

管理员需要前往资源配额(Quota)页面,单击父级资源配额名称Quota1,然后在概览页面中打开子级算力抢占开关。image

开关打开后,当团队A在工作空间workspace-a中,使用Quota1提交新的推理服务时,如果系统发现资源不足(由于团队BC使用子级资源配额创建了训练任务)。系统将回收团队BC中正在运行的任务的算力资源,以保障团队A推理服务的运行。

场景二:团队B和团队C的资源再分配

管理员根据团队B和团队C的需求,通过资源配额扩缩容功能,调整Quota1.1Quota1.2的资源。具体操作,请参见扩缩容资源配额image

  • 例如:将Quota1.1GPU48卡扩容到56卡(新增8卡)。

  • 例如:将Quota1.2GPU80卡缩容到72卡(减少8卡)。

场景三:团队B和团队C的权限隔离

Quota1.1分配给了团队Bworkspace-b,Quota1.2分配给了团队Cworkspace-c。团队B和团队C可以在各自的工作空间中管理资源和任务等权限。详情请参见工作空间调度中心image

  • 本页导读 (1)
  • 背景信息
  • 场景示例
  • 方案介绍
  • 操作方法
  • 功能场景
  • 场景一:推理资源不足,抢占训练任务
  • 场景二:团队B和团队C的资源再分配
  • 场景三:团队B和团队C的权限隔离