文档

资源配额监控与报警

更新时间:

资源配额(Quota)支持查看并监控资源状况,并且提供了全面详细的监控指标,帮助您更好地掌握资源负载情况。通过监控报警功能,您可以对资源配额(Quota)的资源水位进行实时监控,并灵活地配置报警规则和报警通知。如果资源水位出现波动,例如当CPU使用率超过设定阈值时,则会发送报警通知。本文为您介绍如何查看监控数据、配置监控报警通知、订阅监控指标。

前提条件

设置资源配额(Quota)的监控与报警,您需要创建资源配额,详情请参见资源配额(Quota)功能介绍

使用限制

功能分类

支持的资源类型

支持的地域

Quota

灵骏智算资源

  • 华北6(乌兰察布)

  • 新加坡

通用计算资源

  • 华北2(北京)

  • 华东2(上海)

  • 华东1(杭州)

  • 华南1(深圳)

  • 华北6(乌兰察布)

  • 新加坡

查看监控数据

监控大盘

  1. 登录云监控控制台

  2. 在左侧导航栏,选择可视化(Dashboard) > 云产品大盘

  3. 云产品大盘页面,选择PAI-资源配额(Quota)。在实例ID搜索框内,选择或搜索资源配额ID,对应的监控图表会在页面下方展示。

    在对应的监控图表中,可以进行以下操作:

    • 切换监控维度:目前支持Quota维度节点维度的监控指标展示。image

    • 切换展示时间范围image

    • 放大视图:您可以单击每个图表右上角的放大按钮image.png,查看监控数据的细节视图。image

监控指标及说明

监控指标主要包括CPU、内存、磁盘、网络,以及GPU相关指标。全量指标列表及细节说明请参见PAI-资源配额(Quota)指标列表

监控指标

描述

CPU调度量(Quota维度)

指定Quota的CPU调度量。

CPU总量(Quota维度)

指定Quota的CPU总量。

CPU使用率(Quota维度)

指定Quota的CPU使用百分比。

GPU算力使用率(Quota维度)

指定Quota的GPU算力使用率。

GPU显存使用率(Quota维度)

指定Quota的GPU显存使用率。

GPU调度量(Quota维度)

指定Quota的GPU调度量。

GPU总量(Quota维度)

指定Quota的GPU总量。

GPU设备功耗(Quota维度)

指定Quota的GPU设备功耗。

内存使用率(Quota维度)

指定Quota的内存使用百分比。

更多指标,请参考PAI-资源配额(Quota)指标列表

配置监控报警通知

通过监控报警功能,您可以监控资源配额(Quota)的资源水位,并灵活地配置报警规则。如果资源水位出现波动,例如低于配置的报警规则时,则会发送报警通知。本章节为您介绍如何通过云监控控制台和API的方式,配置监控报警功能。

通过控制台配置报警通知

步骤一:配置报警联系人

  1. 创建报警联系人。

    1. 登录云监控控制台

    2. 在左侧导航栏,选择报警服务 > 报警联系人

    3. 报警联系人页签,单击创建联系人

    4. 设置报警联系人面板,填写报警联系人的姓名、手机号码、邮箱和Webhook地址,其他参数均保持默认值。

      说明

      报警通知信息语言默认为自动,表示云监控根据当前阿里云账号注册时的语言,自动适配报警通知信息的语言。

    5. 信息验证无误后,单击确认

  2. 创建报警联系组。

    1. 登录云监控控制台

    2. 在左侧导航栏,选择报警服务 > 报警联系人

    3. 单击报警联系组页签。

    4. 报警联系组页签,单击新建联系人组

    5. 新建联系人组面板,填写报警联系人组的组名,并选择已有报警联系人。

    6. 单击确认

步骤二:配置报警规则

  1. 云监控控制台的左侧导航栏,选择云资源监控 > 云产品监控

  2. 云产品监控页面,搜索并进入PAI-资源配额(Quota)image

  3. PAI-资源配额(Quota)页面,选择服务所在的地域,然后单击创建报警规则

  4. 创建报警规则面板,配置下列参数,并单击确认

    参数

    描述

    产品

    云监控管理的产品名称,选择PAI-资源配额(Quota)

    资源范围

    报警规则的作用范围,目前支持全部资源、实例(作业):

    • 全部资源:任何资源满足报警规则,都会发送报警通知。

    • 实例:根据您选定的产品,您需要选择关联资源(即资源配额ID),仅选中的单个或多个资源实例满足报警规则时,才发送报警通知。

    规则描述

    报警规则主体,当监控数据满足指定条件时,触发报警规则。规则描述的设置方法如下:

    1. 单击添加规则

    2. 设置规则描述面板,设置规则名称、指标类型、监控指标、阈值及报警级别和报警方式等。

      • 规则名称:自定义规则名称。

      • 指标类型:单指标、多指标。

      • 监控指标:指标类型,包括节点维度和Quota维度指标。

      • 阈值及报警级别:根据紧急、警告、普通级别,配置监控周期和阈值。

      • 报警方式:支持电话、短信、邮件和钉钉WebHook等。

    3. 单击确定

    通道沉默周期

    报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。

    生效时间

    报警规则的生效时间。报警规则只在生效时间内才会检查监控数据是否需要报警。

    报警联系人组

    发送报警的联系人组,选择已绑定报警联系人的报警组。

    标签

    自定义设置报警规则的标签。包括标签名称和标签值。

  5. PAI-资源配额(Quota)页面,单击查看报警规则,可查看已创建的报警规则详情、报警历史等,并支持修改规则。

通过API配置报警通知

您可以通过调用API的方式,配置监控报警服务,功能包括查看报警历史、管理报警模板、配置报警规则和报警联系人等。具体调用方法和详情介绍,请参见云监控API目录:报警服务

订阅监控指标

云监控提供完善的API服务,您可以通过调用API的方式,订阅资源配额的监控指标及数据,搭建自己的监控系统和数据大盘。具体操作步骤,请参见云产品监控API目录

云监控API

标题

API概述

DescribeMetricLast

查询指定监控项的最新监控数据

调用DescribeMetricLast接口查询指定监控项的最新监控数据。

DescribeMetricList

查询指定云产品的指定监控项的监控数据

调用DescribeMetricList接口查询指定云产品的指定监控项的监控数据。

DescribeMetricData

查询指定云产品的某个监控项的监控数据

调用DescribeMetricData接口查询指定云产品的某个监控项的监控数据。

DescribeMetricMetaList

查询云监控开放的监控项详情

调用DescribeMetricMetaList接口查询云监控开放的监控项详情。

DescribeProjectMeta

查询云监控支持的时序类监控项产品列表

调用DescribeProjectMeta接口查询云监控支持的时序类监控项产品列表。

DescribeMetricTop

查询排序后的最新监控数据

调用DescribeMetricTop接口先查询指定云产品的指定监控项的最新监控数据,再查询该监控项排序后的监控数据。

DescribeMetricList接口为例,为您说明如何调用该API来查询PAI-分布式训练(DLC)产品下指定指标的监控数据。

  1. 前往PAI-资源配额(Quota)指标列表页面。

  2. 在指标列表页面,单击目标指标操作列下的获取指标数据image

  3. 在OpenAPI门户页面,配置以下关键参数,其他参数取默认配置。更多参数配置说明,请参见DescribeMetricList

    参数

    描述

    Namespace

    配置为acs_pai_quota。

    MetricName

    配置为对应的监控指标。例如QUOTA_CPU_REQUEST。

    StartTime

    开始时间。例如2024-05-15 00:00:00。

    EndTime

    结束时间。例如2024-05-28 00:00:00。

    说明

    StartTime和EndTime之间的间隔小于等于31天。

  4. 参数配置完成后,单击发起调用,即可查看相应时间的监控数据。image

  • 本页导读 (1)