监控报警

在使用MaxCompute过程中,您可能需要通过监测MaxCompute包年包月资源、按量计费作业消费及Tunnel上传下载情况等,了解资源的运行状况,以便及时升级资源或规划作业。您也可以通过设置报警规则,当资源状况符合报警规则时,云监控自动发送报警通知,便于您及时获悉资源的运行状况。

监控报警方案

MaxCompute支持通过如下方式实现监控报警功能:

  • 通过阿里云监控服务配置监控指标,对包年包月资源、实时作业消费、Tunnel上传下载数据量及作业运行时长进行监控:

    • 通过监控大盘,实时观察监控图表,了解各监控指标的实时变化。详情请参见监控大盘配置

    • 自定义报警规则并添加报警联系人,当指标项达到或超过您设置的阈值时,云监控服务会自动向您设置的联系人发送报警通知。报警通知方式支持电话、短信、邮件和钉钉机器人。详情请参见报警规则配置

    阿里云监控服务的开通和计费规则详情请参见计费标准套餐

    更多对作业运行时长的监控信息,请参见作业超时监控告警

  • 通过MaxCompute客户端,对单SQL消费、日累计SQL消费进行监控。更多SQL消费监控信息,请参见单SQL消费限制日累计SQL消费限制

  • 通过阿里云费用与成本,对高额消费进行监控。更多高额消费监控信息,请参见历史高额消费预警

监控指标

MaxCompute产品支持的监控指标类型及对应监控项如下。

监控指标类型

监控指标分类

监控项

描述

MaxCompute-包年包月计算Quota

level1

1级配额CPU使用率

一级Quota的CPU使用量占总量(预留CU+弹性预留CU)的百分比。(单位:%,每分钟采集一次数据)。

1级配额CPU使用量

一级Quota的CPU总使用量。(单位:core,每分钟采集一次数据)。

1级配额MEM使用率

一级Quota的内存使用量占内存总量(预留+弹性预留)的百分比。(单位:%,每分钟采集一次数据)。

1级配额MEM使用量

一级Quota的内存使用量。(单位:MB,每分钟采集一次数据)。

level2

2级配额CPU使用率

二级Quota CPU使用量占总量(预留Min CU+弹性预留CU)的百分比。(单位:%,每分钟采集一次数据)。

2级配额CPU使用量

二级Quota的CPU总使用量。(单位:core,每分钟采集一次数据)。

2级配额MEM使用率

二级Quota的内存使用量占内存总量(预留Min+弹性预留)的百分比。(单位:%,每分钟采集一次数据)。

2级配额MEM使用量

二级Quota的内存使用量。(单位:MB,每分钟采集一次数据)。

2级配额作业等待数

二级Quota作业等待数。(单位:count,每分钟采集一次数据)。

MaxCompute-包年包月用户资源即将废弃

说明

老版本指标,建议使用新指标:MaxCompute-包年包月计算Quota

不涉及

包年包月region配额组CPU使用率

用户在单个区域的整体资源组维度的指标,即每分钟配额组使用的CPU占资源组整体CPU的百分比。

包年包月region配额组MEM使用率

用户在单个区域的整体资源组维度的指标,即每分钟配额组使用的内存占资源组整体内存的百分比。

MaxCompute-包年包月quota组资源即将废弃

说明

老版本指标,建议使用新指标:MaxCompute-包年包月计算Quota

不涉及

包年包月配额组CPU使用量

配额组维度的指标,即每分钟配额组的CPU使用量快照。

例如,您购买150 CU,用满1核为100%,最大使用量是15000%,您可以设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升级资源组或者合理规划作业。

包年包月配额组内存使用量

配额组维度的指标,即每分钟配额组的内存使用量快照。

例如,您购买了150 CU,内存最大为150×4 GB=600 GB,设置报警阈值为大于等于550 GB。如果您多次收到报警信息,建议您升级资源组。

包年包月配额组作业等待数

配额组维度的指标,即每分钟配额组中处于排队状态的作业总数。

例如,您根据业务特性,设置大于等于5个作业排队则报警。如果您多次收到报警信息,建议您升级资源组或合理规划作业。

MaxCompute-按量付费(并入MaxCompute-通用

不涉及

按量付费日作业消费

以项目为单位,单日累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大日消费金额(CNY),达到或超过这个阈值会触发报警。

按量付费月作业消费

以项目为单位,单月累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大月消费金额(CNY),达到或超过这个阈值会触发报警。

MaxCompute-通用

Tunnel

Tunnel下载流量_项目级别

以项目为单位的实时下载流量监控指标。您可以设置最大下载流量(bytes/min),达到或超过这个阈值会触发报警。

Tunnel上传流量_项目级别

以项目为单位的实时上传流量监控指标。您可以设置最大上传流量(bytes/min),达到或超过这个阈值会触发报警。

Tunnel日累计下载数据量_项目级别

以项目为单位,单日该项目累计下载的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。

Tunnel日累计上传数据量_项目级别

以项目为单位,单日该项目累计上传的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。

Tunnel当前并发数(Slot)_项目级别

以项目为单位,选定的项目当前使用的并发数(Slot),达到或超过这个阈值会触发报警。

Tunnel当前并发数(Slot)_租户级别

以租户为单位,选定的租户当前使用的并发数(Slot),达到或超过这个阈值会触发报警。

作业

作业运行时长

以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

重要

运行时长小于1分钟的作业无法监控到。

作业运行时长_SQL类型

以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

重要

运行时长小于1分钟的作业无法监控到。

Storage

标准存储大小_项目级别

项目的标准存储大小。(单位:GB,每小时采集一次数据)。

低频存储大小_项目级别

项目的低频存储大小。(单位:GB,每小时采集一次数据)。

低频存储最近30天访问量百分比_项目级别

值为:(当前项目最近30天累计访问低频存储量 + 当前项目最近30天累计切换低频存储量) / 当前项目最新低频存储量

长期存储大小_项目级别

项目的长期存储大小。(单位:GB,每小时采集一次数据)。

长期存储最近180天访问量百分比_项目级别

值为:(当前项目最近180天累计访问长期存储量 + 当前项目最近180天累计切换长期存储量) / 当前项目最新长期存储量

MaxCompute-包年包月数据传输服务

不涉及

1级配额并发slot使用率

以独享资源组为单位,监控选中独享资源组的使用情况,可以使用并发百分比阈值对资源进行告警规则配置,系统会按照配置的报警规则将报警信息发送至报警联系人。

1级配额并发Slot数

以独享资源组为单位,监控选中独享资源组的使用情况,可以使用并发个数阈值对资源进行告警规则配置,系统会按照配置的报警规则将报警信息发送至报警联系人。

您可以对监控项配置监控大盘或报警规则,操作详情请参见监控大盘配置报警规则配置

监控大盘配置

  1. 登录云监控控制台

  2. 在左侧导航栏,选择可视化(Dashboard) > 自定义大盘

  3. 自定义大盘页面,单击创建大盘并添加图表。

  4. 添加图表面板,选择图表类型和监控项。image..png

    选项

    参数

    描述

    选择图表类型

    折线图

    大盘提供了折线图、面积图、TopN表格、热力图和饼图5种类型,您可以根据需要自行选择。

    面积图

    TopN表格

    热力图

    饼图

    选择监控项

    产品名称

    MaxCompute产品的监控指标类型,详情请参见监控指标

    监控项

    监控项下拉列表中选择监控项。MaxCompute产品的监控项详情请参见监控指标

    资源

    资源下拉列表中选择需要监控的区域和项目(可多选)。

  5. 配置完成后,单击确定,即可在自定义大盘页面查看监控项的图表。

    说明

    关于添加监控图表的操作,请参见管理自定义监控大盘中的监控图表

报警规则配置

您可以对监控指标中的各监控项设置报警规则。

以资源组监控报警为例,设置当MaxCompute包年包月某个配额组CU或内存使用率超过一定值时,需要报警。假设需要监控的资源组配置了150 CU,用满1核为100%,最大使用量是15000%,设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升配资源组或者合理规划作业。基于此场景,报警规则配置步骤如下:

  1. 登录云监控控制台

  2. 在左侧导航栏,单击报警服务 > 报警规则

  3. 报警规则页面,单击创建报警规则

  4. 创建报警规则页面,基于场景配置报警规则相关信息,详细参数配置请参见创建报警规则。配置报警联系人详情请参见创建报警联系人或报警联系人组

    以前面提供的场景为例,您需要配置的关键参数如下:

    参数

    描述

    产品

    在下拉列表选择MaxCompute-包年包月quota组资源

    资源范围

    在下拉列表选择实例

    关联资源

    • 地域:在左上角下拉列表选择MaxCompute项目所在区域。

    • 配额组:在配额组列表选择待监控的配额组名称。配额组详情请参见计算资源-Quota管理(新版)

    添加规则

    • 规则名称:设置报警规则的名称。

    • 指标类型:选择单指标

    • 监控指标:在下拉列表选择预付费配额组CPU使用量

      说明

      您还可以监控作业等待数,当CPU使用量高,且作业等待数多,时间连续N个周期时,则可能需要人工介入进行资源干预。

  5. 单击确认,完成报警规则配置。

相关文档

配置作业超时监控告警及出现报警后处理流程请参见作业超时监控告警