作业超时监控告警

MaxCompute支持通过配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本文为介绍作业超时报警的监控指标、配置方法及处理报警方式。

监控指标

监控作业运行时长的指标如下。

  • 作业运行时长

    • MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

    • 适用于分析师取数据的MaxCompute项目,通常作业运行耗时不长。提前配置该监控指标,如果作业运行时间过长,可以及时检查是否存在资源紧张或作业计算量过大等问题。

  • 作业运行时长_SQL类型

    • MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。

    • 适用于生产项目,需要提前配置该监控指标,如果作业运行时间过长,可以及时处理超时问题,避免出现业务延迟。

适用范围

  • 支持地域:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、华北6(乌兰察布)、西南1(成都)、中国香港、美国(硅谷)、美国(弗吉尼亚)、马来西亚(吉隆坡)、日本(东京)、德国(法兰克福)、印度尼西亚(雅加达)、英国(伦敦)、新加坡。

  • 权限配置:如果RAM用户账号执行配置监控告警操作,除需要有云监控服务本身的权限外,还需要在RAM控制台赋予RAM用户AliyunCloudMonitorFullAccessAliyunDataWorksFullAccess权限。更多RAM用户授权信息,请参见RAM用户授权

配置监控告警

  1. 开通阿里云云监控服务。

  2. 登录云监控控制台

  3. 创建报警联系人

    1. 在左侧导航栏选择报警服务 > 报警联系人

    2. 报警联系人页面,选择报警联系人页签。

    3. 单击创建联系人,在弹出的设置报警联系人窗口,填写相关信息。

    更多创建报警联系人操作信息,请参见创建报警联系人或报警联系人组

  4. 创建报警规则

    1. 在左侧导航栏选择报警服务 > 报警规则

    2. 报警规则页面,单击创建报警规则

    3. 在弹出的创建报警规则窗口,配置报警规则。产品选择MaxCompute-通用

    其他报警规则参数配置,请参见参数说明

处理报警

作业运行时长超过阈值后会触发报警,报警联系人会接收到报警通知。报警联系人可以按照如下流程处理报警:

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏,选择观测运维 > 作业运维

  3. 基于报警通知中的InstanceID信息,查找到超时作业。

  4. (可选)如果作业仍处于Running状态,请先判断是否需要继续运行,如有需要可选择终止作业。详情请参见作业运维

  5. 如果作业是通过DataWorks节点提交的(即对应InstanceExtPlantFrom值为DataWorks)

    进入DataWorks运维中心,查看作业的详细信息,并根据实际情况处理超时问题,请参见管理周期任务

  6. 如果作业不是通过DataWorks节点提交的

    在作业运维页面的Instance列表区域,单击操作列的LogView,查看作业的详细信息,并根据实际情况处理超时问题。请参见使用Logview 2.0查看作业运行信息