MaxCompute支持通过配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本文为您介绍作业超时报警的监控指标、配置方法及处理报警方式。
前提条件
背景信息
监控作业运行时长的指标如下。
指标名称 | 实现原理 | 适用场景 |
---|---|---|
作业运行时长 | 以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 | 例如,专用于分析师取数据的MaxCompute项目,通常作业运行耗时不长。您需要提前配置该监控指标,如果作业运行时间过长,可以及时检查是否存在资源紧张或作业计算量过大等问题。
如果项目存在需要长时间执行的作业,则不推荐配置该监控指标。例如Spark流式作业( |
作业运行时长_SQL类型 | 以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。 | 例如生产项目,您需要提前配置该监控指标,如果作业运行时间过长,可以及时处理超时问题,避免出现业务延迟。 |
配置监控告警
处理报警
作业运行时长超过阈值后会触发报警,报警联系人会接收到报警通知。报警联系人可以按照如下流程处理报警:
在文档使用中是否遇到以下问题
更多建议
匿名提交