在使用MaxCompue过程中,您需要通过监测MaxCompute包年包月资源组、作业消费及Tunnel上传下载情况,了解监控指标的实时变化,以便及时升级资源或规划作业。本文为您介绍如何配置报警规则。

背景信息

您可以使用阿里云监控服务添加监控指标
  • 通过监控大盘,实时观察监控图表,了解各监控指标的实时变化。详情请参见监控大盘配置
  • 自定义报警规则并添加报警联系人,当您的配额组资源达到或超过您设置的阈值时,云监控服务会自动向您设置的联系人发送报警通知。报警通知方式支持电话、短信、邮件和钉钉机器人。详情请参见报警规则配置
阿里云监控服务的开通和计费规则详情请参见按量付费包年包月

监控指标

MaxCompute产品支持的监控指标类型及对应监控项如下:

监控指标类型 监控项 描述
MaxCompute-包年包月用户资源 包年包月region配额组CPU使用率 用户在单个区域的整体资源组维度的指标,即每分钟配额组使用的CPU占资源组整体CPU的百分比。
包年包月region配额组MEM使用率 用户在单个区域的整体资源组维度的指标,即每分钟配额组使用的内存占资源组整体内存的百分比。
MaxCompute-包年包月quota组资源 包年包月配额组CPU使用量 配额组维度的指标,即每分钟配额组的CPU使用量快照。

例如,您购买150 CU,用满1核为100%,最大使用量是15000%,您可以设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升级资源组或者合理规划作业。

包年包月配额组内存使用量 配额组维度的指标,即每分钟配额组的内存使用量快照。

例如,您购买了150 CU,内存最大为150×4 GB=600 GB,设置报警阈值为大于等于550 GB。如果您多次收到报警信息,建议您升级资源组。

包年包月配额组作业等待数 配额组维度的指标,即每分钟配额组中处于排队状态的作业总数。

例如,您根据业务特性,设置大于等于5个作业排队则报警。如果您多次收到报警信息,建议您升级资源组或合理规划作业。

MaxCompute-按量付费 按量付费日作业消费 以项目为单位,单日累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大日消费金额(元),达到或超过这个阈值会触发报警。
按量付费月作业消费 以项目为单位,单月累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大月消费金额(元),达到或超过这个阈值会触发报警。
MaxCompute-通用 Tunnel下载流量_project级别 以项目为单位的实时下载流量监控指标。您可以设置最大下载流量(bytes/min),达到或超过这个阈值会触发报警。
Tunnel上传流量_project级别 以项目为单位的实时上传流量监控指标。您可以设置最大上传流量(bytes/min),达到或超过这个阈值会触发报警。
Tunnel日累计下载数据量_project级别 以项目为单位,单日该项目累计下载的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。
Tunnel日累计上传数据量_project级别 以项目为单位,单日该项目累计上传的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。

您可以对监控项配置监控大盘或报警规则,操作详情请参见监控大盘配置报警规则配置

监控大盘配置

  1. 登录云监控控制台
  2. 在左侧导航栏,选择Dashboard > 自定义大盘
  3. 自定义大盘页面,单击创建监控大盘
  4. 创建视图组对话框,输入新建监控大盘名称,单击创建
  5. 在新建的监控大盘右上角,单击添加图表
  6. 添加图表面板,选择图表类型和监控项。添加图表
    选项 参数 描述
    选择图表类型 折线图 大盘提供了折线图、面积图、TopN表格、热力图和饼图5种类型,您可以根据需要自行选择。
    面积图
    TopN表格
    热力图
    饼图
    选择监控项 监控指标类型 云产品监控页签中,选择监控指标类型。MaxCompute产品的监控指标类型详情请参见监控指标
    监控项 监控项下拉列表中选择监控项。MaxCompute产品的监控项详情请参见监控指标
    资源 资源下拉列表中选择需要监控的区域和项目(可多选)。
  7. 配置完成后,单击发布,即可在自定义大盘页面查看监控项的图表。
    说明 关于添加监控图表的操作,请参见管理自定义大盘中的监控图表

报警规则配置

您可以对监控指标中的各监控项设置报警规则。

以资源组监控报警为例,设置当MaxCompute包年包月某个配额组CU或内存使用率超过一定值时,需要报警。假设需要监控的资源组配置了150 CU,用满1核为100%,最大使用量是15000%,设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升配资源组或者合理规划作业。基于此场景,报警规则配置步骤如下:
  1. 登录云监控控制台
  2. 在左侧导航栏,单击报警服务 > 报警规则
  3. 报警规则页面的阈值报警页签,单击创建报警规则
  4. 单击创建报警规则
  5. 创建报警规则页面,基于场景配置报警规则相关信息,详细参数配置请参见创建阈值报警规则。配置报警联系人详情请参见创建报警联系人或报警联系组创建报警规则以前面提供的场景为例,您需要配置的关键参数如下:
    选项 参数 描述
    关联资源 产品 在下拉列表选择MaxCompute-包年包月quota组资源
    资源范围 在下拉列表选择配额组
    地域 在下拉列表选择MaxCompute项目所在区域。
    配额组 在下拉列表选择待监控的配额组名称。配额组详情请参见MaxCompute管家
    设置报警规则 规则名称 设置报警规则的名称。
    规则描述 在下拉列表选择包年包月配额组CPU使用量
    说明 您还可以监控作业等待数,当CPU使用量高,且作业等待数多,时间连续N个周期时,则可能需要人工介入进行资源干预。
  6. 单击确认,完成报警规则配置。