MaxCompute支持通过配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本文为您介绍作业超时报警的监控指标、配置方法及处理报警方式。
前提条件
背景信息
监控作业运行时长的指标如下。
指标名称 | 实现原理 | 适用场景 |
---|---|---|
作业运行时长 | 以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 | 例如,专用于分析师取数据的MaxCompute项目,通常作业运行耗时不长。您需要提前配置该监控指标,如果作业运行时间过长,可以及时检查是否存在资源紧张或作业计算量过大等问题。
如果项目存在需要长时间执行的作业,则不推荐配置该监控指标。例如Spark流式作业( |
作业运行时长_SQL类型 | 以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 | 例如生产项目,您需要提前配置该监控指标,如果作业运行时间过长,可以及时处理超时问题,避免出现业务延迟。 |
使用限制
作业超时报警的使用限制如下:
- 云监控服务仅支持华东1(杭州)、华东2(上海)、华北2(北京)和华南1(深圳)四个地域,其他地域暂不支持。
- 如果由RAM用户账号执行配置监控告警操作,除需要有云监控服务本身的权限外,还需要在RAM控制台赋予RAM用户AliyunCloudMonitorFullAccess和AliyunDataWorksFullAccess权限。更多RAM用户授权信息,请参见为RAM用户授权。
配置监控告警
处理报警
作业运行时长超过阈值后会触发报警,报警联系人会接收到报警通知。报警联系人可以按照如下流程处理报警: