MaxCompute支持通过配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本文为介绍作业超时报警的监控指标、配置方法及处理报警方式。
监控指标
监控作业运行时长的指标如下。
作业运行时长
以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。
适用于分析师取数据的MaxCompute项目,通常作业运行耗时不长。提前配置该监控指标,如果作业运行时间过长,可以及时检查是否存在资源紧张或作业计算量过大等问题。
作业运行时长_SQL类型
以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。
适用于生产项目,需要提前配置该监控指标,如果作业运行时间过长,可以及时处理超时问题,避免出现业务延迟。
适用范围
支持地域:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、华北6(乌兰察布)、西南1(成都)、中国香港、美国(硅谷)、美国(弗吉尼亚)、马来西亚(吉隆坡)、日本(东京)、德国(法兰克福)、印度尼西亚(雅加达)、英国(伦敦)、新加坡。
权限配置:如果RAM用户账号执行配置监控告警操作,除需要有云监控服务本身的权限外,还需要在RAM控制台赋予RAM用户AliyunCloudMonitorFullAccess和AliyunDataWorksFullAccess权限。更多RAM用户授权信息,请参见为RAM用户授权。
配置监控告警
开通阿里云云监控服务。
登录云监控控制台。
创建报警联系人
在左侧导航栏选择。
在报警联系人页面,选择报警联系人页签。
单击创建联系人,在弹出的设置报警联系人窗口,填写相关信息。
更多创建报警联系人操作信息,请参见创建报警联系人或报警联系人组。
创建报警规则
在左侧导航栏选择。
在报警规则页面,单击创建报警规则。
在弹出的创建报警规则窗口,配置报警规则。产品选择MaxCompute-通用。
其他报警规则参数配置,请参见参数说明。
处理报警
作业运行时长超过阈值后会触发报警,报警联系人会接收到报警通知。报警联系人可以按照如下流程处理报警:
登录MaxCompute控制台,在左上角选择地域。
在左侧导航栏,选择。
基于报警通知中的InstanceID信息,查找到超时作业。
(可选)如果作业仍处于Running状态,请先判断是否需要继续运行,如有需要可选择终止作业。详情请参见作业运维。
如果作业是通过DataWorks节点提交的(即对应Instance的ExtPlantFrom值为DataWorks)
进入DataWorks运维中心,查看作业的详细信息,并根据实际情况处理超时问题,请参见管理周期任务。
如果作业不是通过DataWorks节点提交的
在作业运维页面的Instance列表区域,单击操作列的LogView,查看作业的详细信息,并根据实际情况处理超时问题。请参见使用Logview 2.0查看作业运行信息。