在使用MaxCompute过程中,您需要通过监测MaxCompute包年包月资源、按量计费作业消费及Tunnel上传下载情况等,了解监控指标的实时变化,以便及时升级资源或规划作业。本文为您介绍MaxCompute提供的监控报警方案。

背景信息

MaxCompute支持通过如下方式实现监控报警功能:
  • 通过阿里云监控服务配置监控指标,对包年包月资源、实时作业消费、Tunnel上传下载数据量及作业运行时长进行监控:
    • 通过监控大盘,实时观察监控图表,了解各监控指标的实时变化。详情请参见监控大盘配置
    • 自定义报警规则并添加报警联系人,当指标项达到或超过您设置的阈值时,云监控服务会自动向您设置的联系人发送报警通知。报警通知方式支持电话、短信、邮件和钉钉机器人。详情请参见报警规则配置

    阿里云监控服务的开通和计费规则详情请参见按量付费包年包月

    更多对作业运行时长的监控信息,请参见作业超时监控告警

  • 通过MaxCompute客户端,对单SQL消费、日累计SQL消费进行监控。更多SQL消费监控信息,请参见单SQL消费限制日累计SQL消费限制
  • 通过阿里云用户中心,对高额消费进行监控。更多高额消费监控信息,请参见历史高额消费预警

监控指标

MaxCompute产品支持的监控指标类型及对应监控项如下。

监控指标类型 监控项 描述
MaxCompute-包年包月用户资源 包年包月region配额组CPU使用率 用户在单个区域的整体资源组维度的指标,即每分钟配额组使用的CPU占资源组整体CPU的百分比。
包年包月region配额组MEM使用率 用户在单个区域的整体资源组维度的指标,即每分钟配额组使用的内存占资源组整体内存的百分比。
MaxCompute-包年包月quota组资源 包年包月配额组CPU使用量 配额组维度的指标,即每分钟配额组的CPU使用量快照。

例如,您购买150 CU,用满1核为100%,最大使用量是15000%,您可以设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升级资源组或者合理规划作业。

包年包月配额组内存使用量 配额组维度的指标,即每分钟配额组的内存使用量快照。

例如,您购买了150 CU,内存最大为150×4 GB=600 GB,设置报警阈值为大于等于550 GB。如果您多次收到报警信息,建议您升级资源组。

包年包月配额组作业等待数 配额组维度的指标,即每分钟配额组中处于排队状态的作业总数。

例如,您根据业务特性,设置大于等于5个作业排队则报警。如果您多次收到报警信息,建议您升级资源组或合理规划作业。

MaxCompute-按量付费 按量付费日作业消费 以项目为单位,单日累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大日消费金额(元),达到或超过这个阈值会触发报警。
按量付费月作业消费 以项目为单位,单月累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大月消费金额(元),达到或超过这个阈值会触发报警。
MaxCompute-通用 Tunnel下载流量_project级别 以项目为单位的实时下载流量监控指标。您可以设置最大下载流量(bytes/min),达到或超过这个阈值会触发报警。
Tunnel上传流量_project级别 以项目为单位的实时上传流量监控指标。您可以设置最大上传流量(bytes/min),达到或超过这个阈值会触发报警。
Tunnel日累计下载数据量_project级别 以项目为单位,单日该项目累计下载的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。
Tunnel日累计上传数据量_project级别 以项目为单位,单日该项目累计上传的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。
作业运行时长 以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。
作业运行时长_SQL类型 以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

您可以对监控项配置监控大盘或报警规则,操作详情请参见监控大盘配置报警规则配置

监控大盘配置

  1. 登录云监控控制台
  2. 在左侧导航栏,选择Dashboard > 自定义大盘
  3. 自定义大盘页面,单击创建监控大盘
  4. 创建视图组对话框,输入新建监控大盘名称,单击创建
  5. 在新建的监控大盘右上角,单击添加图表
  6. 添加图表面板,选择图表类型和监控项。添加图表
    选项 参数 描述
    选择图表类型 折线图 大盘提供了折线图、面积图、TopN表格、热力图和饼图5种类型,您可以根据需要自行选择。
    面积图
    TopN表格
    热力图
    饼图
    选择监控项 监控指标类型 云产品监控页签中,选择监控指标类型。MaxCompute产品的监控指标类型详情请参见监控指标
    监控项 监控项下拉列表中选择监控项。MaxCompute产品的监控项详情请参见监控指标
    资源 资源下拉列表中选择需要监控的区域和项目(可多选)。
  7. 配置完成后,单击发布,即可在自定义大盘页面查看监控项的图表。
    说明 关于添加监控图表的操作,请参见管理自定义大盘中的监控图表

报警规则配置

您可以对监控指标中的各监控项设置报警规则。

以资源组监控报警为例,设置当MaxCompute包年包月某个配额组CU或内存使用率超过一定值时,需要报警。假设需要监控的资源组配置了150 CU,用满1核为100%,最大使用量是15000%,设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升配资源组或者合理规划作业。基于此场景,报警规则配置步骤如下:
  1. 登录云监控控制台
  2. 在左侧导航栏,单击报警服务 > 报警规则
  3. 报警规则页面的阈值报警页签,单击创建报警规则
  4. 单击创建报警规则
  5. 创建报警规则页面,基于场景配置报警规则相关信息,详细参数配置请参见创建阈值报警规则。配置报警联系人详情请参见创建报警联系人或报警联系组创建报警规则以前面提供的场景为例,您需要配置的关键参数如下:
    选项 参数 描述
    关联资源 产品 在下拉列表选择MaxCompute-包年包月quota组资源
    资源范围 在下拉列表选择配额组
    地域 在下拉列表选择MaxCompute项目所在区域。
    配额组 在下拉列表选择待监控的配额组名称。配额组详情请参见MaxCompute管家
    设置报警规则 规则名称 设置报警规则的名称。
    规则描述 在下拉列表选择包年包月配额组CPU使用量
    说明 您还可以监控作业等待数,当CPU使用量高,且作业等待数多,时间连续N个周期时,则可能需要人工介入进行资源干预。
  6. 单击确认,完成报警规则配置。