您可以对已创建的资源配额进行管理操作,包括扩缩容资源配额、新增子级资源配额,以及查看资源配额详情等。
扩缩容资源配额
您可以根据当前任务量调整资源配额的规模,以实现有效的成本管理。
在资源配额(Quota)页面中,单击目标资源配额操作列下的扩缩容,通过调整来源或节点/规格实现资源配额的扩缩容。
扩容:通过新增或更新资源的来源或规格,为资源配额添加新资源,从而实现扩容。
缩容:通过更新资源的来源或规格,减少已关联资源规格的节点数或删除某些资源规格,从而释放资源。
新增子级资源配额
在资源配额页面中,通过单击资源配额操作列下的新增子级资源配额,为现有资源配额新增子级资源配额。这样算力资源将可以按照企业组织架构的层级划分为父子级资源配额,形成如下图所示的树状结构(简称QuotaTree),以实现更灵活和精细的资源管理和分配。后续,您可以开启产品提供的抢占策略,实现资源的最大利用率。
如上图所示,将算力资源拆分为了三级。
查看资源配额列表
在资源配额页面中,切换到灵骏智算资源或通用计算资源页签,分别查看已创建的资源配额列表。
过滤资源配额:支持通过资源配额名称/ID或工作空间名称/ID过滤资源配额。
按资源量排序:支持查看资源调度量和总量,并按CPU、内存或GPU的资源总量和调度量进行排序,以了解资源分布和使用情况。
使用资源配额:单击绑定的工作空间名称,进入相应的工作空间。在该工作空间中,您可以使用该资源配额进行AI开发和服务部署。
查看资源配额详情与配置变更
在资源配额页面,切换到灵骏智算资源或通用计算资源页签,单击资源配额名称查看详情。支持从以下维度查看资源配额详情并并进行配置变更:
概览
切换到概览页签:
节点
切换到节点页签:
查看节点详情:展示节点规格、资源占用量和总量以及使用各个节点创建的任务数和实例数等。
查看节点状态:相关状态说明如下:
已就绪(Ready):表示算力节点健康,可以使用。
未就绪(NotReady): 通常发生在资源配额扩缩容时,表示算力节点正在进行初始化等操作。
禁止调度(SchedulingDisabled): 表示节点目前无法调度。针对禁止调度状态,增加如下状态码(ReasonCode):
用户停止调度(CordonByUser):用户手动操作停止调度, 节点无法使用。
过期(Expired):节点订单到期,无法使用。
自愈中(Recovering):节点自愈过程中,导致无法使用。
未知(Unknown):其他原因。
停止调度节点
单击目标节点操作列下的停止调度,将暂停该节点的资源使用。
查看任务数和实例数
在目标节点任务数和实例数列,通过该节点创建的任务和实例总数。单击相应的数字,即可查看具体的任务信息和实例信息。
任务
切换到任务页签:
查看任务列表:显示本级及子级资源配额创建的任务。
筛选当前资源配额任务:启用只看当前资源配额参数。
用户
切换到用户页签:
查看用户资源提交和调度情况。
查看任务详情:单击任务数列下的详情,可以查看更多关于任务的详细信息,包括任务状态、执行时间等。
监控
切换到监控页签:
查看资源水位和监控指标:
切换监控维度:目前支持Quota维度和节点维度的监控指标展示。
切换展示时间范围:
设置每行显示的监控指标:
配置报警规则和通知:详情请参见资源配额监控与报警。
拓扑
切换至拓扑页签,查看资源视图和任务视图,实时监控资源使用情况:
资源视图:展示本级及子级资源配额在CPU、内存与GPU资源上的分配情况。
任务视图:展示通过本级及子级资源配额创建的总任务数,以及每种任务状态下的任务数量。