监测MaxCompute包年包月资源、按量计费作业消费及Tunnel上传下载情况等,了解资源运行状况,以便及时升级资源或规划作业。此外,可以设置报警规则,当资源指标满足报警条件时,云监控自动发送报警通知,便于及时发现并处理异常。
监控报警方案
MaxCompute支持通过如下方式实现监控报警功能:
-
通过阿里云监控服务配置监控指标,监控包年包月资源、实时作业消费、Tunnel上传下载数据量及作业运行时长。
-
通过监控大盘,实时观察监控图表,了解各监控指标的实时变化。
-
自定义报警规则并添加报警联系人,当指标项达到或超过设置的阈值时,云监控服务会自动向已设置的联系人发送报警通知。报警通知方式支持电话、短信、邮件和钉钉机器人。
-
登录MaxCompute控制台,在概览页右侧的告警与风险提示区域查看各指标的告警数量。
更多对作业运行时长的监控信息,请参见作业超时监控告警。
-
-
通过MaxCompute客户端,监控单SQL消费、日累计SQL消费。更多SQL消费监控信息,请参见单SQL消费限制和日累计SQL消费限制。
-
通过阿里云费用与成本控制台监控高额消费。更多高额消费监控信息,请参见消费监控告警。
监控指标
MaxCompute产品支持的监控指标类型及对应监控项如下。
|
监控指标类型 |
监控指标分类 |
监控项 |
描述 |
|
MaxCompute-包年包月计算Quota |
level1 |
1级配额CPU使用率 |
一级Quota的CPU使用量占总量(预留CU+弹性预留CU)的百分比。(单位:%,每分钟采集一次数据)。 |
|
1级配额CPU使用量 |
一级Quota的CPU总使用量。(单位:core,每分钟采集一次数据)。 |
||
|
1级配额MEM使用率 |
一级Quota的内存使用量占内存总量(预留+弹性预留)的百分比。(单位:%,每分钟采集一次数据)。 |
||
|
1级配额MEM使用量 |
一级Quota的内存使用量。(单位:MB,每分钟采集一次数据)。 |
||
|
level2 |
2级配额CPU使用率 |
二级Quota CPU使用量占总量(预留Min CU+弹性预留CU)的百分比。(单位:%,每分钟采集一次数据)。 |
|
|
2级配额CPU使用量 |
二级Quota的CPU总使用量。(单位:core,每分钟采集一次数据)。 |
||
|
2级配额MEM使用率 |
二级Quota的内存使用量占内存总量(预留Min+弹性预留)的百分比。(单位:%,每分钟采集一次数据)。 |
||
|
2级配额MEM使用量 |
二级Quota的内存使用量。(单位:MB,每分钟采集一次数据)。 |
||
|
2级配额作业等待数 |
二级Quota作业等待数。(单位:count,每分钟采集一次数据)。 |
||
|
MaxCompute-通用 |
Tunnel |
Tunnel下载流量_项目级别 |
以项目为单位的实时下载流量监控指标。您可以设置最大下载流量(bytes/min),达到或超过这个阈值会触发报警。 |
|
Tunnel上传流量_项目级别 |
以项目为单位的实时上传流量监控指标。您可以设置最大上传流量(bytes/min),达到或超过这个阈值会触发报警。 |
||
|
Tunnel日累计下载数据量_项目级别 |
以项目为单位,单日该项目累计下载的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。 |
||
|
Tunnel日累计上传数据量_项目级别 |
以项目为单位,单日该项目累计上传的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。 |
||
|
Tunnel当前并发数(Slot)_项目级别 |
以项目为单位,选定的项目当前使用的并发数(Slot),达到或超过这个阈值会触发报警。 |
||
|
Tunnel当前并发数(Slot)_租户级别 |
以租户为单位,选定的租户当前使用的并发数(Slot),达到或超过这个阈值会触发报警。 |
||
|
作业 |
作业运行时长 |
以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 重要
运行时长小于1分钟的作业无法监控到。 |
|
|
作业运行时长_SQL类型 |
以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 重要
运行时长小于1分钟的作业无法监控到。 |
||
|
作业运行时长_SQL类型_提交人 |
以 MaxCompute 项目为单位,监控项目下所有 SQL 类型作业的运行时长(包含等待时间)。当某个 SQL 作业的运行时长超过设置的阈值时,系统会按照配置的报警规则,将报警信息发送至报警联系人。报警内容中将额外包含作业的提交人信息,便于接收报警的用户明确作业归属。 重要
运行时长小于1分钟的作业无法监控到。 |
||
|
Cost |
StorageAPIRead日消费量 |
以项目为单位,单日累计Storage API读取数据消费量(单位:GiB)的监控指标。达到或超过该阈值会触发报警。 说明
当前每个租户每月可享有1 TB的免费数据读写额度,超过1 TB时,系统会在数据消费量超过1 TB时开始监控。 |
|
|
StorageAPIRead月消费量 |
以项目为单位,单月累计Storage API读取数据消费量(单位:GiB)的监控指标。达到或超过该阈值会触发报警。 说明
当前每个租户每月可享有1 TB的免费数据读写额度,超过1 TB时,系统会在数据消费量超过1 TB时开始监控。 |
||
|
StorageAPIWrite日消费量 |
以项目为单位,单日累计Storage API写入数据消费量(单位:GiB)的监控指标。达到或超过该阈值会触发报警。 说明
当前每个租户每月可享有1 TB的免费数据读写额度,超过1 TB时,系统会在数据消费量超过1 TB时开始监控。 |
||
|
StorageAPIWrite月消费量 |
以项目为单位,单月累计Storage API写入数据消费量(单位:GiB)的监控指标。达到或超过该阈值会触发报警。 说明
当前每个租户每月可享有1 TB的免费数据读写额度,超过1 TB时,系统会在数据消费量超过1 TB时开始监控。 |
||
|
按量付费作业的日消费(CNY) |
以项目为单位,单日累计SQL、MapReduce作业消费金额的监控指标。可以设置最大日消费金额(CNY),达到或超过该阈值会触发报警。 |
||
|
按量付费作业的月消费(CNY) |
以项目为单位,单月累计SQL、MapReduce作业消费金额的监控指标。可以设置最大月消费金额(CNY),达到或超过这个阈值会触发报警。 |
||
|
Storage |
标准存储大小_项目级别 |
项目的标准存储大小。(单位:GB,每小时采集一次数据)。 |
|
|
低频存储大小_项目级别 |
项目的低频存储大小。(单位:GB,每小时采集一次数据)。 |
||
|
低频存储最近30天访问量百分比_项目级别 |
值为: |
||
|
长期存储大小_项目级别 |
项目的长期存储大小。(单位:GB,每小时采集一次数据)。 |
||
|
长期存储最近180天访问量百分比_项目级别 |
值为: |
||
|
MaxCompute-包年包月数据传输服务 |
不涉及 |
1级配额并发slot使用率 |
以独享资源组为单位,监控选中独享资源组的使用情况,可以使用并发百分比阈值对资源进行告警规则配置,系统会按照配置的报警规则将报警信息发送至报警联系人。 |
|
1级配额并发Slot数 |
以独享资源组为单位,监控选中独享资源组的使用情况,可以使用并发个数阈值对资源进行告警规则配置,系统会按照配置的报警规则将报警信息发送至报警联系人。 |
监控大盘配置
-
登录云监控控制台。
-
在左侧导航栏,选择。
-
在自定义大盘页面,单击创建仪表盘,在弹出的创建大盘对话框中,填写大盘名称并选择所属文件夹,然后单击确定。
-
单击刚创建完成的大盘名称,进入详情页,单击添加可视化组件。
-
页面右上角可以选择图表类型,包括线图、柱状图、统计图、刻度盘、计量图、饼图、表格、分面图、流图和直方图。
-
在查询分析区域,数据源插件选择云产品监控后,可以进一步配置监控项。
关于监控图表更多操作,请参见管理自定义监控大盘中的监控图表。
报警规则配置
可以对监控指标中的各监控项设置报警规则。
以资源组监控报警为例,设置当MaxCompute包年包月某个配额组CU或内存使用率超过一定值时,需要报警。假设需要监控的资源组配置了150 CU,用满1核为100%,最大使用量是15000%,设置监控阈值为大于12000%则报警。如果收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。可以根据业务规划,及时升配资源组或者合理规划作业。基于此场景,报警规则配置步骤如下:
-
登录云监控控制台。
-
在左侧导航栏,单击。
-
在报警规则页面,单击创建报警规则。
-
在创建报警规则页面,基于场景配置报警规则相关信息,详细参数配置请参见创建报警规则。配置报警联系人详情请参见创建报警联系人或报警联系人组。
以前面提供的场景为例,需要配置的关键参数如下:
参数
描述
产品
在下拉列表选择MaxCompute-包年包月计算Quota
资源范围
在下拉列表选择实例。
关联资源
单击添加实例,在添加实例页面勾选MaxCompute项目所在地域的包年包月配额组,单击确定。配额组详情请参见计算资源-Quota管理。
规则描述
单击,在添加规则描述面板中配置以下参数:
-
规则名称:设置报警规则的名称。
-
指标类型:选择简单指标。
-
监控指标:在下拉列表选择对应的CPU使用量。
说明-
若添加的实例为一级配额组,此处可选择。若添加的实例为二级配额组,此处可选择
-
还可以监控作业等待数,当CPU使用量高,且作业等待数多,时间连续N个周期时,则可能需要人工介入进行资源干预。
-
-
-
单击确认,完成报警规则配置。
相关文档
配置作业超时监控告警及出现报警后处理流程请参见作业超时监控告警。