为了保障业务数据正常产出,Dataphin支持为数据集成任务、计算任务、萃取任务及逻辑表字段配置离线监控告警规则。任务运行过程中,如果触发了监控告警规则,系统会给您发送告警消息,便于您及时发现并处理异常。本文为您介绍如何为任务配置离线监控告警规则。

背景信息

说明 当前不支持配置小时任务和分钟任务的监控。如果修改任务的调度周期为小时或分钟,则会影响已经配置的监控规则。

生产环境的任务参与调度时,可以根据业务需求配置监控任务运行状况的监控规则,以便您及时了解任务运行的异常。系统根据监控规则和任务运行情况,决策是否报警、何时报警、如何报警以及给谁报警。同时,Dataphin系统会为您记录历史报警,您可以单击页面上方的告警中心,查看相关告警事件和告警信息。

Dataphin支持配置任务监控和字段监控。针对计算任务、管道任务和萃取任务,支持配置单任务粒度的监控规则。针对逻辑表任务,支持配置单个字段粒度的监控规则。

离线监控配置列表

在离线监控配置页面,您可以单击 任务监控字段监控页签,查看已生成的监控项。
  • 任务监控页面介绍

    任务监控页面展示已配置的任务监控的监控项(监控任务名称和ID)、报警原因、创建人、接收方式、接收人、最后修改时间、监控开关的状态信息。

    tewr
    操作 描述
    筛选 在上图的模块①区域,您可以通过筛选条件过滤需要查询的任务监控。
    筛选项包括:
    • 报警原因:包括出错、完成、运行超时和未完成。
    • 接收方式:包括电话、短信、钉钉和邮件。
    • 创建人:选择任务监控的创建人。
    • 接收人:选择任务监控的接收人。

    如果您需要重新筛选,则单击重置,即可快速清空所有筛选条件,恢复系统默认。

    单节点操作 编辑、删除监控规则和开启或关闭监控开关。

    开启监控开关后,监控项生效。

    批量操作 批量删除监控规则或修改监控规则的接收人、开启或关闭监控开关。
  • 字段监控页面介绍

    任务监控页面展示已配置的字段监控的逻辑表、监控项、报警原因、创建人、接收方式、接收人、最后修改时间、监控开关的状态信息。

    fagag
    操作 描述
    筛选 在上图的模块①区域,您可以通过筛选条件过滤需要查询的任务监控。
    筛选项包括:
    • 逻辑表:选择已配置监控的逻辑表。
    • 监控项:选择已配置监控的字段。
    • 接收方式:包括电话、短信、钉钉和邮件。
    • 创建人:选择任务监控的创建人。
    • 接收人:选择任务监控的接收人。

    如果您需要重新筛选,则单击重置,即可快速清空所有筛选条件,恢复系统默认。

    单节点操作 编辑、删除监控规则和开启或关闭监控开关。
    批量操作 批量删除监控规则或修改监控规则的接收人、开启或关闭监控开关。

批量配置监控项

批量配置监控项支持为一个报警原因配置多个物理任务或逻辑表字段的监控规则。

  1. 离线监控配置页面,鼠标悬停至新建离线监控上,单击批量监控项配置
  2. 在批量监控项配置向导页面,完成以下操作。
    1. 配置报警原因。faga
      参数 描述
      报警原因 选择报警原因。
      • 完成:任务运行完成后,报警给接收对象。
      • 出错:任务运行出错后,报警给接收对象。
      • 运行超时:任务运行超过设定的时间后,报警给接收对象。
      • 未完成:在设定的时间点未完成运行后,报警给接收对象。
      报警频率 频率范围为1~59分钟/次。如果超出范围取输入值的临近默认值。
      监控区间 设置监控的时间区间,系统支持选择全天或指定时间段。
      接收对象 选择告警信息的接收人:
      • 负责人:指定该离线计算任务的责任人为报警信息的接收人。
      • 自定义:单击自定义后,选择报警信息的接收人(系统支持最多可以选择5个)。
      • 值班表:

        如果您还没有值班表,则需要先在告警中心配置值班表,详情请参见新建值班表

      接收方式 选择告警接收方式。系统支持选择电话、短信、钉钉、邮件,且支持多选。
      发送次数 设置每个告警事件最多发送几次告警。
    2. 完成配置后,单击下一步
    3. 选择监控项。您可以根据业务需要配置多个任务或字段的监控项,如下图所示。tagta
      说明 单次配置最多选择20个监控项。
  3. 单击确定

批量配置监控规则

批量配置监控规则支持为一个监控任务配置多个报警原因的监控规则。

  1. 离线监控配置页面,鼠标悬停至新建离线监控上,单击批量监控规则配置
  2. 在批量监控规则配置页面,选择监控任务(区域①)、添加报警原因(区域②)后,配置告警规则(区域③)。gfga
    参数 描述
    报警原因 选择报警原因:
    • 完成:任务运行完成后,报警给接收对象。
    • 出错:任务运行出错后,报警给接收对象。
    • 运行超时:任务运行超过设定的时间后,报警给接收对象。
    • 未完成:在设定时间内未完成运行后,报警给接受对象。
    报警频率 频率范围为1~59分钟/次。如果超出范围取输入值的临近默认值。
    监控区间 设置监控的时间区间,系统支持选择全天或指定时间段。
    接收对象 选择告警信息的接收人:
    • 负责人:指定该离线计算任务的责任人为报警信息的接收人。
    • 自定义:单击自定义后,选择报警信息的接收人(系统支持最多可以选择5个)。
    • 值班表:

      如果您还没有值班表,则需要先在告警中心配置值班表,详情请参见新建值班表

    接收方式 选择告警接收方式。系统支持选择电话、短信、钉钉、邮件,且支持多选。
    发送次数 设置每个告警事件最多发送几次告警。

    您可以根据业务需要配置多个报警原因,单击test图标,添加报警原因并配置告警规则。

  3. 单击确定