资源配额(Quota)支持查看和监控资源状况,提供详细的监控指标,帮助您掌握资源负载情况。通过监控报警功能,您可以灵活配置报警规则和通知,来实时监控资源水位。当资源水位出现波动(例如CPU使用率超过阈值)时,则会发送报警通知。本文为您介绍如何通过云监控和ARMS,查看监控数据、配置监控报警通知、订阅监控指标。
前提条件
要设置资源配额(Quota)的监控与报警,您需要先创建资源配额,详情请参见资源配额(Quota)功能介绍。
使用限制
功能分类 | 支持的资源类型 | 支持的地域 |
Quota | 灵骏智算资源 |
|
通用计算资源 |
|
监控指标说明
监控指标主要包括CPU、内存、磁盘、网络,以及GPU相关指标。全量指标列表及细节说明请参见PAI-资源配额(Quota)指标列表。
监控指标 | 描述 |
CPU调度量(Quota维度) | 指定Quota的CPU调度量。 |
CPU总量(Quota维度) | 指定Quota的CPU总量。 |
CPU使用率(Quota维度) | 指定Quota的CPU使用百分比。 |
GPU算力使用率(Quota维度) | 指定Quota的GPU算力使用率。 |
GPU显存使用率(Quota维度) | 指定Quota的GPU显存使用率。 |
GPU调度量(Quota维度) | 指定Quota的GPU调度量。 |
GPU总量(Quota维度) | 指定Quota的GPU总量。 |
GPU设备功耗(Quota维度) | 指定Quota的GPU设备功耗。 |
内存使用率(Quota维度) | 指定Quota的内存使用百分比。 |
更多指标,请参考PAI-资源配额(Quota)指标列表。 |
使用云监控
云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务,为云上用户提供开箱即用的企业级开放型一站式监控解决方案。您可以登录云监控控制台,查看PAI-资源配额(Quota)监控数据,并设置告警通知。云监控还支持通过API订阅指标数据,助您建立自己的监控系统和数据大盘。更多关于云监控的详细介绍,请参见什么是云监控。
计费说明
使用云监控服务会产生一定的费用,详细的计费说明,请参见云监控计费说明。
查看监控数据
登录云监控控制台。
在左侧导航栏,选择
。在云产品大盘页面,选择PAI-资源配额(Quota)。在搜索框内,选择或搜索资源配额名称,对应的监控图表会在页面下方展示。
在对应的监控图表中,可以进行以下操作:
切换监控维度:目前支持Quota维度和节点维度的监控指标展示。
切换展示时间范围:
放大视图:您可以单击每个图表右上角的放大按钮,查看监控数据的细节视图。
配置监控报警
通过监控报警功能,您可以监控资源配额(Quota)中已分配的资源的水位,并灵活地配置报警规则。如果资源水位出现波动,例如低于配置的报警规则时,则会发送报警通知。通过云监控控制台配置监控报警通知的操作步骤如下:
步骤一:配置报警联系人
登录云监控控制台。
在左侧导航栏,选择 。
在报警联系人页签,单击创建联系人,填写报警联系人的姓名、手机号码、邮箱或Webhook地址,并单击确认。
在报警联系组页签,单击新建联系人组,填写报警联系人组的组名,并选择已有报警联系人,然后单击确认。
步骤二:配置报警规则
在云监控控制台的左侧导航栏,选择 。
在云产品监控页面,搜索并进入PAI-资源配额(Quota)。
在PAI-资源配额(Quota)页面,选择服务所在的地域,然后单击创建报警规则。
在创建报警规则面板,配置下列参数,并单击确认。
参数
描述
产品
云监控管理的产品名称,选择PAI-资源配额(Quota)。
资源范围
报警规则的作用范围,目前支持全部资源、应用分组和实例:
全部资源:任何资源满足报警规则,都会发送报警通知。
实例:根据您选定的产品,您需要选择关联资源(即资源配额ID),仅选中的单个或多个资源实例满足报警规则时,才发送报警通知。
规则描述
报警规则主体,当监控数据满足指定条件时,触发报警规则。规则描述的设置方法,请参见创建报警规则。
通道沉默周期
报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
生效时间
报警规则的生效时间。报警规则只在生效时间内才会检查监控数据是否需要报警。
报警联系人组
发送报警的联系人组,选择已绑定报警联系人的报警组。
标签
自定义设置报警规则的标签。包括标签名称和标签值。
在PAI-资源配额(Quota)页面,单击查看报警规则,可查看已创建的报警规则详情、报警历史等,并支持修改规则。
您也可以通过调用API的方式,配置监控报警通知,功能包括查看报警历史、管理报警模板、配置报警规则和报警联系人等。具体调用方法和详情介绍,请参见云监控API目录:报警服务。
订阅监控指标
云监控提供完善的API服务,您可以通过调用API的方式,订阅资源配额的监控指标及数据,搭建自己的监控系统和数据大盘。具体操作步骤,请参见云产品监控API目录。
云监控API | API概述 |
调用DescribeMetricLast接口查询指定监控项的最新监控数据。 | |
调用DescribeMetricList接口查询指定云产品的指定监控项的监控数据。 | |
调用DescribeMetricData接口查询指定云产品的某个监控项的监控数据。 | |
调用DescribeMetricMetaList接口查询云监控开放的监控项详情。 | |
调用DescribeProjectMeta接口查询云监控支持的时序类监控项产品列表。 | |
调用DescribeMetricTop接口先查询指定云产品的指定监控项的最新监控数据,再查询该监控项排序后的监控数据。 |
以DescribeMetricList接口为例,为您说明如何调用该API来查询PAI-分布式训练(DLC)产品下指定指标的监控数据。
前往PAI-资源配额(Quota)指标列表页面。
在指标列表页面,单击目标指标操作列下的获取指标数据。
在OpenAPI门户页面,配置以下关键参数,其他参数取默认配置。更多参数配置说明,请参见DescribeMetricList。
参数
描述
Namespace
配置为acs_pai_quota。
MetricName
配置对应的监控指标。例如QUOTA_CPU_REQUEST。
StartTime
开始时间。例如2024-05-15 00:00:00。
EndTime
结束时间。例如2024-05-28 00:00:00。
说明StartTime和EndTime之间的间隔小于等于31天。
参数配置完成后,单击发起调用,即可查看相应时间的监控数据。
使用ARMS
应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款阿里云云原生可观测产品平台。基于ARMS提供的能力,你可以自定义一套PAI-资源配额(Quota)服务的Grafana大盘,以及使用Prometheus配置灵活的报警规则,帮助您全面详细的监控PAI-资源配额(Quota)指标数据。关于ARMS更详细的内容介绍,请参见应用实时监控服务ARMS。
计费说明
使用ARMS服务会产生一定的费用,详细的计费说明,请参见ARMS计费说明。
接入监控数据
具体操作步骤如下:
登录ARMS控制台。
在左侧导航栏,单击接入中心。
在接入中心页面,单击左侧人工智能页签,然后单击阿里云 PAI-资源配额 (Quota) 服务。
(可选)在弹出的面板中,预览监控数据接入后的展示效果,并查看采集指标和告警规则模板。
效果预览
单击效果预览页签,查看指标监控大盘。
采集指标
单击采集指标页签,查看采集指标。
告警规则模板
单击告警规则模板,查看告警规则模板。
在弹出的面板的开始接入页签,配置以下参数,然后单击确定。
参数
描述
选择数据存储地域
选择数据存储的地域。
接入名称
按照控制台提示信息配置服务的接入名称。
大约需要等待1~2分钟,即可完成PAI-资源配额(Quota)监控数据的接入。
安装完成后,您可以单击接入管理,查看已接入环境的详细信息。
查看Grafana大盘
登录ARMS控制台,在左侧导航栏选择接入管理,并在已接入环境>云服务区域环境页签,单击环境名称。
在组件管理页签的组件类型区域单击大盘,即可查看内置的Grafana大盘。
单击大盘名称,查看监控大盘。
配置Prometheus监控报警
您可以通过Prometheus配置监控报警,具体操作步骤如下:
登录ARMS控制台,在左侧导航栏选择接入管理,并在已接入环境>云服务区域环境页签,单击环境名称。
在组件管理的组件类型区域单击告警规则,即可查看内置的告警规则。
内置的告警规则会产生告警事件,但是不会进行告警通知,您可以通过以下两种配置方法将告警通知发送到邮件或其他平台:
通过设置通知策略,制定针对告警事件的匹配规则。当匹配规则被触发时,系统会以您指定的通知方式向通知对象发送告警信息。具体操作,请参见通知策略。
通过编辑告警规则配置通知方式。
在编辑Prometheus告警规则页面,您也可以自定义告警条件、持续时间、告警内容以及告警通知等。有关告警详细配置的信息,请参见创建Prometheus告警规则。