作业超时监控告警

MaxCompute支持通过配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本文为您介绍作业超时报警的监控指标、配置方法及处理报警方式。

前提条件

在配置作业超时报警功能前,请您确认已开通阿里云云监控服务。

背景信息

监控作业运行时长的指标如下。

指标名称

实现原理

适用场景

作业运行时长

以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

例如,专用于分析师取数据的MaxCompute项目,通常作业运行耗时不长。您需要提前配置该监控指标,如果作业运行时间过长,可以及时检查是否存在资源紧张或作业计算量过大等问题。

作业运行时长_SQL类型

以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

例如生产项目,您需要提前配置该监控指标,如果作业运行时间过长,可以及时处理超时问题,避免出现业务延迟。

使用限制

作业超时报警的使用限制如下:

  • 云监控服务仅支持华东1(杭州)、华东2(上海)、华北2(北京)和华南1(深圳)四个地域,其他地域暂不支持。

  • 如果由RAM用户账号执行配置监控告警操作,除需要有云监控服务本身的权限外,还需要在RAM控制台赋予RAM用户AliyunCloudMonitorFullAccess和AliyunDataWorksFullAccess权限。更多RAM用户授权信息,请参见为RAM用户授权

配置监控告警

  1. 登录云监控控制台

  2. 创建报警联系人。

    更多创建报警联系人操作信息,请参见创建报警联系人

  3. 创建报警联系组。

    更多创建报警联系组操作信息,请参见创建报警联系组

  4. 在左侧导航栏,单击报警服务 > 报警规则

  5. 报警规则页面,单击创建报警规则

  6. 创建报警规则页面,配置报警规则相关信息。

    请重点关注下表参数,其他报警规则参数配置,请参见创建报警规则报警规则

    参数

    说明

    产品

    云监控可管理的云产品名称。例如:云数据库RDS版。

    资源范围

    报警规则作用的资源范围。取值:

    • 全部资源:报警规则作用于指定云产品的全部资源上,对于新加入的资源生效。

    • 应用分组:报警规则作用于指定云产品的指定应用分组内的全部资源上,对于新加入的资源生效。

    • 实例:报警规则作用于指定云产品的指定资源上。

    规则描述

    报警规则的主体。当监控数据满足报警条件时,触发报警规则。规则描述的设置方法如下:

    1. 单击添加规则,在下滑菜单中选择合适的指标类型。

    2. 设置规则描述面板,先输入规则名称,再设置规则条件。

      • 单指标:先选择监控指标,再为其设置阈值和报警级别。

      • 组合指标:先选择报警级别,再配置多指标报警描述为两个或两个以上的监控指标设置报警条件。

        说明

        如果设置了多个指标报警规则,则目标资源必须在每个指标上均有数据,只有在满足条件后才能够正常触发报警。例如:在多指标报警规则中,如果包含公网的监控指标,而ECS主机资源并未配置公网IP,则将无法正常触发报警。

      • 表达式:先选择报警级别,再配置报警表达式。

      • 智能阈值:关于智能阈值的更多信息,请参见概览创建智能阈值报警规则

    3. 单击确定

    说明

    关于如何设置复杂的表达式报警条件,请参见报警规则表达式说明

    通道沉默周期

    报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    例如:当通道沉默周期选择12小时时,如果报警未恢复正常,则间隔12小时后,云监控会再次发送报警通知。

    生效时间

    报警规则的生效时间。报警规则仅在生效期内才会发送报警通知。

    说明

    当报警规则不在生效期时,不会发送报警通知,但是报警历史记录仍然会显示在报警历史列表中。

    报警联系人组

    发送报警的联系人组。

    应用分组的报警通知会发送给该报警联系人组中的报警联系人。报警联系人组是一组报警联系人,可以包含一个或多个报警联系人。

    关于如何创建报警联系人和报警联系人组,请参见创建报警联系人或报警联系人组

    标签

    报警规则的标签。包括标签名称和标签值。

    说明

    您最多可设置6组标签。

    报警回调

    公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调

    当您需要测试报警回调地址的连通性时,可以执行以下操作。

    1. 单击回调地址正后方的测试

      WebHook测试面板,您可以通过Webhook返回的状态码和测试结果详情对报警回调地址的连通性进行判断和排查。

      说明

      您还可以设置Webhook的回调模板类型语言,再次单击测试,获取对应的测试结果详情。

    2. 单击关闭

    说明

    单击高级设置,可设置该参数。

    弹性伸缩

    如果您打开弹性伸缩开关,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则

    说明

    单击高级设置,可设置该参数。

    日志服务

    如果您打开日志服务开关,当报警发生时,会将报警信息发送至日志服务的日志库。您需要设置日志服务的地域ProjectNameLogstore

    关于如何创建Project和Logstore,请参见快速入门

    说明

    单击高级设置,可设置该参数。

    轻量消息队列(原 MNS)— topic

    如果您打开轻量消息队列(原 MNS)— topic开关,当报警发生时,会将报警信息发送至消息服务的主题。您需要设置消息服务的地域和主题。

    关于如何创建主题,请参见创建主题

    说明

    单击高级设置,可设置该参数。

    函数计算

    如果您打开函数计算开关,当报警发生时,会将报警通知发送至函数计算进行格式处理。您需要设置函数计算的地域、服务和函数。

    关于如何创建服务和函数,请参见快速创建函数

    说明

    单击高级设置,可设置该参数。

    无数据处理方法

    无监控数据时报警的处理方式。取值:

    • 不做任何处理(默认值)

    • 发送无数据报警

    • 视为恢复

    说明

    单击高级设置,可设置该参数。

处理报警

作业运行时长超过阈值后会触发报警,报警联系人会接收到报警通知。报警联系人可以按照如下流程处理报警:

  1. 进入MaxCompute控制台的工作区 > 作业运维页面,基于报警通知中的InstanceID信息,查找到超时作业。

    说明

    如果作业仍处于Running状态,请先判断是否需要继续运行,如有需要可选择终止作业。详情请参见作业运维

    • 如果作业是通过DataWorks节点提交的(即对应Instance的ExtPlantFrom值为dataworks),转2

    • 如果作业不是通过DataWorks节点提交的,转3

  2. 可选:进入DataWorks运维中心,查看作业的详细信息,并根据实际情况处理超时问题。

    更多通过DataWorks运维中心查看作业信息,请参见查看并管理周期任务

  3. 可选:在作业运维页面的Instance列表区域,单击操作列的LogView,查看作业的详细信息,并根据实际情况处理超时问题。

    更多Logview使用信息,请参见使用Logview 2.0查看作业运行信息