在使用MaxCompute过程中,您需要通过监测MaxCompute包年包月资源、按量计费作业消费及Tunnel上传下载情况等,了解监控指标的实时变化,以便及时升级资源或规划作业。本文为您介绍MaxCompute提供的监控报警方案。
背景信息
MaxCompute支持通过如下方式实现监控报警功能:
- 通过阿里云监控服务配置监控指标,对包年包月资源、实时作业消费、Tunnel上传下载数据量及作业运行时长进行监控:
- 通过监控大盘,实时观察监控图表,了解各监控指标的实时变化。详情请参见监控大盘配置。
- 自定义报警规则并添加报警联系人,当指标项达到或超过您设置的阈值时,云监控服务会自动向您设置的联系人发送报警通知。报警通知方式支持电话、短信、邮件和钉钉机器人。详情请参见报警规则配置。
更多对作业运行时长的监控信息,请参见作业超时监控告警。
- 通过MaxCompute客户端,对单SQL消费、日累计SQL消费进行监控。更多SQL消费监控信息,请参见单SQL消费限制和日累计SQL消费限制。
- 通过阿里云用户中心,对高额消费进行监控。更多高额消费监控信息,请参见历史高额消费预警。
监控指标
MaxCompute产品支持的监控指标类型及对应监控项如下。
监控指标类型 | 监控项 | 描述 |
---|---|---|
MaxCompute-包年包月用户资源 | 包年包月region配额组CPU使用率 | 用户在单个区域的整体资源组维度的指标,即每分钟配额组使用的CPU占资源组整体CPU的百分比。 |
包年包月region配额组MEM使用率 | 用户在单个区域的整体资源组维度的指标,即每分钟配额组使用的内存占资源组整体内存的百分比。 | |
MaxCompute-包年包月quota组资源 | 包年包月配额组CPU使用量 | 配额组维度的指标,即每分钟配额组的CPU使用量快照。
例如,您购买150 CU,用满1核为100%,最大使用量是15000%,您可以设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升级资源组或者合理规划作业。 |
包年包月配额组内存使用量 | 配额组维度的指标,即每分钟配额组的内存使用量快照。
例如,您购买了150 CU,内存最大为150×4 GB=600 GB,设置报警阈值为大于等于550 GB。如果您多次收到报警信息,建议您升级资源组。 |
|
包年包月配额组作业等待数 | 配额组维度的指标,即每分钟配额组中处于排队状态的作业总数。
例如,您根据业务特性,设置大于等于5个作业排队则报警。如果您多次收到报警信息,建议您升级资源组或合理规划作业。 |
|
MaxCompute-按量付费 | 按量付费日作业消费 | 以项目为单位,单日累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大日消费金额(元),达到或超过这个阈值会触发报警。 |
按量付费月作业消费 | 以项目为单位,单月累计SQL、MapReduce作业消费金额的监控指标。您可以设置最大月消费金额(元),达到或超过这个阈值会触发报警。 | |
MaxCompute-通用 | Tunnel下载流量_project级别 | 以项目为单位的实时下载流量监控指标。您可以设置最大下载流量(bytes/min),达到或超过这个阈值会触发报警。 |
Tunnel上传流量_project级别 | 以项目为单位的实时上传流量监控指标。您可以设置最大上传流量(bytes/min),达到或超过这个阈值会触发报警。 | |
Tunnel日累计下载数据量_project级别 | 以项目为单位,单日该项目累计下载的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。 | |
Tunnel日累计上传数据量_project级别 | 以项目为单位,单日该项目累计上传的数据量监控指标。您可以设置最大数据量(MB),达到或超过这个阈值会触发报警。 | |
Tunnel当前并发数(Slot)_project级别 | 以项目为单位,选定的项目当前使用的并发数(Slot),达到或超过这个阈值会触发报警。 | |
作业运行时长 | 以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 | |
作业运行时长_SQL类型 | 以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 |
监控大盘配置
- 登录云监控控制台。
- 在左侧导航栏,选择 。
- 在自定义大盘页面,单击创建监控大盘。
- 在创建视图组对话框,输入新建监控大盘名称,单击创建。
- 在新建的监控大盘右上角,单击添加图表。
- 在添加图表面板,选择图表类型和监控项。
选项 参数 描述 选择图表类型 折线图 大盘提供了折线图、面积图、TopN表格、热力图和饼图5种类型,您可以根据需要自行选择。 面积图 TopN表格 热力图 饼图 选择监控项 监控指标类型 在云产品监控页签中,选择监控指标类型。MaxCompute产品的监控指标类型详情请参见监控指标。 监控项 在监控项下拉列表中选择监控项。MaxCompute产品的监控项详情请参见监控指标。 资源 在资源下拉列表中选择需要监控的区域和项目(可多选)。 - 配置完成后,单击发布,即可在自定义大盘页面查看监控项的图表。
说明 关于添加监控图表的操作,请参见管理自定义监控大盘中的监控图表。
报警规则配置
您可以对监控指标中的各监控项设置报警规则。
以资源组监控报警为例,设置当MaxCompute包年包月某个配额组CU或内存使用率超过一定值时,需要报警。假设需要监控的资源组配置了150 CU,用满1核为100%,最大使用量是15000%,设置监控阈值为大于12000%则报警。如果您收到报警,表示资源组即将满负荷,继续提交作业有可能出现排队的情况。您可以根据业务规划,及时升配资源组或者合理规划作业。基于此场景,报警规则配置步骤如下:
- 登录云监控控制台。
- 在左侧导航栏,单击 。
- 在报警规则列表页面,单击创建报警规则。
- 在创建报警规则页面,基于场景配置报警规则相关信息,详细参数配置请参见创建报警规则。配置报警联系人详情请参见创建报警联系人或报警联系组。
以前面提供的场景为例,您需要配置的关键参数如下:
参数 描述 产品 在下拉列表选择MaxCompute-包年包月quota组资源。 资源范围 在下拉列表选择实例。 关联资源 - 地域:在左上角下拉列表选择MaxCompute项目所在区域。
- 配额组:在配额组列表选择待监控的配额组名称。配额组详情请参见MaxCompute管家。
添加规则 - 规则名称:设置报警规则的名称。
- 指标类型:选择单指标。
- 监控指标:在下拉列表选择预付费配额组CPU使用量。
说明 您还可以监控作业等待数,当CPU使用量高,且作业等待数多,时间连续N个周期时,则可能需要人工介入进行资源干预。
- 单击确认,完成报警规则配置。