配置任务监控报警规则

Dataphin支持批量配置任务级和字段级的监控报警,任务级支持物理任务、逻辑表任务,字段级支持逻辑表字段,便于您及时发现并处理任务报警,同时提高任务监控报警配置的效率。本文为您介绍如何为任务和逻辑表字段配置监控报警规则。

前提条件

在执行操作前,请确认您已满足以下条件中的任意一个:

  • 已提交Basic项目中的任务至生产环境。

  • 已发布Dev项目中的任务至生产环境。具体操作,请参见管理发布任务

使用限制

  • 仅支持针对生产环境的任务进行配置监控报警规则。

  • 单次配置最多支持选择100个监控项。监控项包括任务和逻辑表的字段。

批量为任务或字段配置相同的监控报警规则

  1. 任务监控页面。按照下图指引,进入新建离线任务监控对话框。

    image

  2. 新建离线任务监控对话框,配置报警原因步骤中,配置监控参数。

    参数

    描述

    报警原因

    报警原因支持配置出错未完成运行超时完成数据延迟事件。

    • 出错:任务级任务运行过程中出错后,即触发报警。逻辑表中的任一字段出错时将触发告警。

      说明

      Dataphin会自动重试运行任务,直至重试次数耗尽。如果任务运行仍然出错,才会触发告警。

    • 未完成:设置未完成须设置监控的对象类型以及未完成的时间点(即触发条件),超过该时间点未运行完成则告警。监控的对象支持监控日/周/月调度周期任务小时/分钟调度周期任务

      说明

      修改未完成告警配置后将在次日生效。

      • 日/周/月调度周期任务:任务在配置的触发条件时间内未完成,则告警。

      • 小时/分钟调度周期任务:触发条件支持特定时间后仍未完成实例在定时运行时间后仍未完成。

        • 特定时间后仍未完成:对于受监控的小时/分钟调度任务的指定周期,在指定时间后仍未运行完成,将会触发告警。指定周期的周期范围支持1~288个周期。若需要添加多个周期,您可以单击+添加周期,最大支持添加24个周期,周期之间不可重复。

          image.png

      • 实例在定时运行时间后仍未完成:对于受监控的小时/分钟调度任务的指定监控周期,在定时运行时间后的指定时间仍未运行完成,将会触发告警。监控周期范围支持快捷选择全部、第一个周期、最后一个周期自定义勾选需要监控的周期范围。周期范围支持1~288个周期

        image.png

        重要
        • 针对未完成的监控报警,更改监控任务的调度周期为小时或分钟,将会导致对应监控规则失效。

        • 指定时间点逻辑表中存在未完成的字段将触发告警(仅天级任务有效)。

    • 运行超时:设置运行超时须设置运行超过时间,支持配置的运行超时范围为0~19999分钟,若超出范围将以输入值的临近默认值为运行时间范围。从实例运行状态变成运行中开始计算,经过指定时长后任务级别任务未运行结束或逻辑表存在字段仍未运行结束则触发报警。

      image.png

    • 完成:任务级任务完成运行后,即触发报警。明细表中全部字段运行完成后触发告警;汇总表中任一指标完成时触发报警。

    • 数据延迟:存在延迟产生的数据时将触发报警,仅支持已开启数据延迟的事实逻辑表配置。

    报警频率

    告警信息发送的频率。支持配置频率范围为1~59分钟/次,若超出范围将以输入值的临近默认值为报警频率。

    监控区间

    设置监控生效的时间区间。支持全天指定时段。指定时段时须配置起始时点结束时点

    image

    发送次数

    报警触发时,报警信息发送的次数。支持1~10之间的整数,若超出范围将以输入值的临近默认值做为发生次数。

    接收配置

    报警的接收人配置。接收人支持责任人值班表自定义。若需不同接收人配置,您可单击+新增接收人进行添加。

    • 责任人:任务负责人。

    • 值班表:告警中心所配置的值班表。需要您提前完成值班表的创建,详情请参见新建值班表

    • 自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。

    接收方式:支持钉钉、短信、电话和邮件。

    重要

    选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加Dataphin成员

  3. 根据您选择的报警原因,配置对应的监控报警规则后,单击下一步

    选择监控项页签,按照下图指引,选择需要按照该告警规则监控的任务。

    image

  4. 单击确定

批量为一个任务或字段配置监控报警规则

  1. 任务监控页面。按照下图指引,进入新建离线任务监控对话框。

    image

  2. 新建离线任务监控对话框,按照下图指引,选择需要监控的任务及配置监控报警规则。

    image

    参数

    描述

    监控任务

    选择需要配置监控规则的任务或逻辑表字段。

    报警原因

    报警原因支持配置出错、未完成、运行超时、完成、数据延迟事件。若需同时配置多个报警原因,您可单击+新建报警原因进行添加。

    • 出错:任务级任务运行过程中出错后,即触发报警。逻辑表中的任一字段出错时将触发告警。

      说明

      Dataphin会自动重试运行任务,直至重试次数耗尽。如果任务运行仍然出错,才会触发告警。

    • 未完成:设置未完成须设置监控对象类型的未完成时间点(即触发条件),超过该时间点未运行完成则告警。不同的监控对象配置不同。详情如下:

      说明

      修改未完成告警配置后将在次日生效。

      • 日/周/月调度周期任务:任务在配置的触发条件时间内未完成,则告警。

      • 小时/分钟调度周期任务:触发条件支持特定时间后仍未完成实例在定时运行时间后仍未完成。

        • 特定时间后仍未完成:对于受监控的小时/分钟调度任务的指定周期,在指定时间后仍未运行完成,将会触发告警。指定周期的周期范围支持1~288个周期。若需要添加多个周期,您可以单击+添加周期,最大支持添加24个周期,周期之间不可重复。

          image.png

      • 实例在定时运行时间后仍未完成:对于受监控的小时/分钟调度任务的指定监控周期,在定时运行时间后的指定时间仍未运行完成,将会触发告警。监控周期范围支持快捷选择全部、第一个周期、最后一个周期自定义勾选需要监控的周期范围。周期范围支持1~288个周期

        image.png

        重要
        • 针对未完成的监控报警,更改监控任务的调度周期为小时或分钟,将会导致对应监控规则失效。

        • 指定时间点逻辑表中存在未完成的字段将触发告警(仅天级任务有效)。

    • 运行超时:设置运行超时须设置运行超过时间,支持配置的运行超时范围为0~19999分钟,若超出范围将以输入值的临近默认值为运行时间范围。从实例运行状态变成运行中开始计算,经过指定时长后任务级别任务未运行结束或逻辑表存在字段仍未运行结束则触发报警。

      image.png

    • 完成:任务级任务完成运行后,即触发报警。明细表中全部字段运行完成后触发告警;汇总表中任一指标完成时触发报警。

    • 数据延迟:存在延迟产生的数据时将触发报警,仅支持已开启数据延迟的事实逻辑表配置。

    报警频率

    告警信息发送的频率。支持配置频率范围为1~59分钟/次,若超出范围将以输入值的临近默认值为报警频率。

    监控区间

    设置监控生效的时间区间。支持全天指定时段。指定时段时须配置起始时点结束时点

    image

    发送次数

    报警触发时,报警信息发送的次数。支持1~10之间的整数,若超出范围将以输入值的临近默认值做为发生次数。

    接收配置

    报警的接收人配置。接收人支持责任人值班表自定义。若需不同接收人配置,您可单击新增接收人进行添加。

    • 责任人:任务负责人。

    • 值班表:告警中心所配置的值班表。需要您提前完成值班表的创建,详情请参见新建值班表

    • 自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。

    接收方式:支持钉钉、短信、电话和邮件。

    重要

    选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加Dataphin成员

  3. 单击确定

后续步骤

您可以在报警中心查看所有的报警事件。如何查看报警事件,请参见告警事件