配置任务监控报警规则

Dataphin支持批量配置任务级和字段级的监控报警,任务级支持物理任务、逻辑表任务,字段级支持逻辑表字段,便于您及时发现并处理任务报警,同时提高任务监控报警配置的效率。本文为您介绍如何为任务和逻辑表字段配置监控报警规则。

前提条件

在执行操作前,请确认您已满足以下条件中的任意一个:

  • 已提交Basic项目中的任务至生产环境。

  • 已发布Dev项目中的任务至生产环境。具体操作,请参见管理发布任务

使用限制

  • 仅支持针对生产环境的任务进行配置监控报警规则。

  • 单次配置最多支持选择100监控项。监控项包括任务和逻辑表的字段。

批量为任务或字段配置相同的监控报警规则

  1. Dataphin首页的顶部菜单栏中,选择研发 > 任务运维

  2. 在左侧导航栏选择监控管理 > 离线任务监控

  3. 离线任务监控页面,单击任务监控字段监控页签,在对应页签下,单击新建离线监控,选择批量监控对象配置

  4. 新建离线任务监控(批量监控对象配置)对话框中,配置监控参数。

    1. 配置报警原因

      参数

      描述

      报警原因

      报警原因支持配置出错未完成运行超时完成数据延迟事件。

      • 出错:任务级任务运行过程中出错后,即触发报警。逻辑表中的任一字段出错时将触发告警。

        说明

        Dataphin会自动重试运行任务,直至重试次数耗尽。如果任务运行仍然出错,才会触发告警。

      • 未完成:设置未完成须设置监控的对象类型以及未完成的时间点(即触发条件),超过该时间点未运行完成则告警。监控的对象支持监控日/周/月调度周期任务小时/分钟调度周期任务

        说明

        修改未完成告警配置后将在次日生效。

        • 日/周/月调度周期任务:任务在配置的触发条件时间内未完成,则告警。触发条件时间的时区,同监控区间参数的说明,详情请参见下文。

        • 小时/分钟调度周期任务:触发条件支持特定时间后仍未完成实例在定时运行时间后仍未完成。

          • 特定时间后仍未完成:对于受监控的小时/分钟调度任务的指定周期,在指定时间后仍未运行完成,将会触发告警。指定周期的周期范围支持1~288个周期。若需要添加多个周期,您可以单击+添加周期,最大支持添加24周期,周期之间不可重复。其中监控时间点的时区,同监控区间参数的说明,详情请参见下文。

          • 实例在定时运行时间后仍未完成:对于受监控的小时/分钟调度任务的指定监控周期,在定时运行时间后的指定时间仍未运行完成,将会触发告警。监控周期范围支持快捷选择全部、第一个周期、最后一个周期自定义勾选需要监控的周期范围。周期范围支持1~288个周期

            重要
            • 针对未完成的监控报警,更改监控任务的调度周期为小时或分钟,将会导致对应监控规则失效。

            • 指定时间点逻辑表中存在未完成的字段将触发告警(仅天级任务有效)。

      • 运行超时:设置运行超时须设置运行超过时间,支持配置的运行超时范围为0~19999分钟,若超出范围将以输入值的临近默认值为运行时间范围。从实例运行状态变成运行中开始计算,经过指定时长后任务级别任务未运行结束或逻辑表存在字段仍未运行结束则触发报警。

      • 完成:任务级任务完成运行后,即触发报警。明细表中全部字段运行完成后触发告警;汇总表中任一指标完成时触发报警。

      • 数据延迟:存在延迟产生的数据时将触发报警,仅支持已开启数据延迟的事实逻辑表配置。

      报警频率

      告警信息发送的频率。支持配置频率范围为1~59分钟/次,若超出范围将以输入值的临近默认值为报警频率。

      监控区间

      设置监控生效的时间区间。支持全天指定时段。指定时段时按照系统时区配置起始时点结束时点

      当系统时区(即用户中心中的时区)与调度时区不一致时,系统将同时展示系统时区和调度时区。选择指定时段的起始时间后,系统自动计算出对应的调度时区时间。当计算出的调度时区时间与系统时区时间不在同一天时,使用(-1)表示前一天、(+1)表示后一天。例如,系统时区为GMT+08:00,调度时区为GMT+01:00,指定时段配置为00:00 ~ 01:00,则对应的调度时区时间为17:00(-1) ~ 18:00(-1)

      发送次数

      报警触发时,报警信息发送的次数。支持1~10之间的整数,若超出范围将以输入值的临近默认值做为发生次数。

      接收配置

      报警的接收人配置。接收人支持责任人值班表自定义。若需不同接收人配置,您可单击+新增接收人进行添加。

      • 责任人:任务负责人。

      • 值班表:告警中心所配置的值班表。需要您提前完成值班表的创建,详情请参见新建值班表

      • 自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。

      接收方式:支持钉钉、短信、电话、邮件、飞书、企业微信和自定义渠道

      重要

      选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加Dataphin成员

  5. 根据您选择的报警原因,配置对应的监控报警规则后,单击下一步

    选择监控项页签,按照下图指引,选择需要按照该告警规则监控的任务。

    image

  6. 单击确定

批量为一个任务或字段配置监控报警规则

  1. 任务监控字段监控页签下,单击新建离线监控,选择批量监控规则配置

  2. 新建离线任务监控(批量监控规则配置)对话框,进行以下配置。

    1. 监控任务:选择需要配置监控规则的任务或逻辑表字段。

    2. 报警原因:单击+新建报警原因,选择报警原因,支持配置出错、未完成、运行超时、完成、数据延迟事件。参数及说明同批量监控对象配置,详情请参见参数描述

  3. 单击确定

后续步骤

您可以在报警中心查看所有的报警事件。如何查看报警事件,请参见告警事件