训推一体资源管理-人工智能平台 PAI(PAI)-阿里云帮助中心

训推一体是在同一GPU集群上同时运行推理服务和训练任务。通过父子级资源配额的算力抢占机制，推理自动抢占训练资源；结合EAS定时扩缩容和DLC闲时资源，白天保障推理、夜间自动训练，实现GPU集群全时段高效利用。

背景信息

场景示例

假设您有128卡GPU，分配给三个团队：

A团队负责推理服务，资源优先级最高。
B、C团队负责模型训练，优先级低于推理。
A团队推理资源不足时，系统自动回收B、C团队的训练资源。
白天EAS自动扩容保障推理；夜间EAS缩容释放GPU，训练任务自动启动。
B、C团队各自独立管理资源和任务，互不干扰。

方案介绍

EAS推理服务部署在父配额上，DLC训练任务部署在子配额上。推理需要资源时，自动抢占训练算力。结合EAS定时扩缩容（白天扩、夜间缩）和DLC闲时资源（夜间利用空闲算力训练），全程无需人工干预。

以上图场景为例，操作步骤如下：

创建Quota 1（128卡GPU），打开子级算力抢占开关。再创建两个子配额：Quota 1.1（48卡）和Quota 1.2（80卡）。
为A团队创建workspace_a，绑定Quota 1。在Quota 1上部署EAS推理服务，配置定时扩缩容。
为B团队创建workspace_b，绑定Quota 1.1。在Quota 1.1上创建DLC训练任务，开启闲时资源。
为C团队创建workspace_c，绑定Quota 1.2。在Quota 1.2上创建DSW实例进行开发。

操作步骤

准备AI计算资源（通用计算资源或灵骏智算资源）。通用资源池必须创建2.0版本，才可同时用于EAS、DLC、DSW。详情参见资源池。
新增资源配额。
1. 创建Quota1，配置以下关键参数。详情参见创建资源配额或通用计算资源配额。
  - 选择规则/资源（128卡GPU）。
  - 打开子级算力抢占开关。开启后，父配额上的EAS推理服务可抢占子配额上的训练资源。
2. 在Quota1的操作列，单击新增子级资源配额，创建两个子配额。详情参见创建父子Quota。
  - Quota 1.1：48卡GPU。
  - Quota 1.2：80卡GPU。
创建三个工作空间并绑定配额。详情参见创建及管理工作空间。
- A团队：workspace_a，绑定Quota 1。
- B团队：workspace_b，绑定Quota 1.1。
- C团队：workspace_c，绑定Quota 1.2。
使用父配额Quota1创建EAS推理服务，并配置定时扩缩容。详情参见服务部署。
典型的定时扩缩容配置：
- 早晨 8:00 扩容到目标副本数，保障白天推理高峰。
- 晚上 22:00 缩容到0个或少量副本，释放GPU资源给训练任务。
详细配置参见定时自动扩缩容功能。
使用子配额创建DLC训练任务或DSW实例，并开启闲时资源。详情参见创建训练任务。
开启闲时资源后，训练任务可利用配额外的空闲算力。夜间EAS缩容释放的GPU会自动分配给训练任务。
详细配置参见使用闲时资源。
为A、B、C团队添加工作空间管理员权限。详情参见配置工作空间。更多角色说明参见附录：角色及权限列表。

功能场景

场景一：推理资源不足，抢占训练任务

在资源配额（Quota）页面，单击Quota 1，在概览页面打开子级算力抢占开关。

开启后，A团队提交推理服务时若资源不足，系统自动回收B、C团队的训练资源，优先保障推理。

场景二：团队B和团队C的资源再分配

根据团队需求调整Quota 1.1和Quota 1.2的资源。在资源配额（Quota）页面找到目标Quota，单击操作列的扩缩容。详情参见Quota扩缩容。

将Quota 1.1从48卡扩容到56卡（新增8卡）。
将Quota 1.2从80卡缩容到72卡（减少8卡）。

场景三：团队B和团队C的权限隔离

Quota 1.1绑定workspace_b，Quota 1.2绑定workspace_c，B、C团队在各自工作空间中独立管理资源和任务。详情参见工作空间调度中心。

配置资源使用角色：在工作空间配置页面，选择调度配置页签，在资源使用区域为指定配额选择可使用角色，单击+添加新增配置行，完成后单击保存。