实时任务监控

为了及时发现并处理任务运行过程中的异常,Dataphin支持批量为任务配置报警规则,便于您及时发现并处理异常,同时提高了为任务配置监控报警规则的效率。本文为您介绍如何为实时任务配置监控告警规则。

背景信息

Dataphin支持批量配置监控报警规则,包括为批量任务或字段配置相同的监控报警规则、为单个任务或字段配置批量监控报警规则,提高了配置监控报警规则的效率。不同实时计算引擎支持的报警原因不同。

监控原因

Ververica Flink

Blink

业务延时过高

支持

支持

TPS超过范围

支持

支持

失败频率超过配置

支持

支持

数据滞留超过配置

-

支持

checkpoint失败超过配置

-

支持

运行失败

支持

-

同时,Dataphin支持为单个监控报警规则配置不同的接收人,并且给不同接收人可以指定不同的接收方式,以实现某任务相关人员都能收到报警信息。例如:

  • 为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。

  • 为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。

  • 为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。

前提条件

在执行操作前,请确认您已满足如下条件:

  • 已提交Basic项目中的任务至生产环境。

  • 已发布Dev项目中的任务至生产环境。具体操作,请参见管理发布任务

使用限制

  • 仅支持针对生产环境的任务进行配置监控报警规则。

  • 单击配置最多支持选择100监控项。监控项包括任务和逻辑表字段。

  • Ververica Flink不支持告警配置。

批量为任务配置相同的监控规则

  1. Dataphin首页的顶部菜单栏中,选择研发 > 任务运维

  2. 在左侧导航栏中选择监控管理 > 实时任务监控

  3. 实时任务监控页面,单击+新建实时监控,选择批量监控项配置

  4. 新建实时任务监控配置(批量监控项配置)对话框中,配置以下参数。

    1. 配置报警原因页面,选择报警原因

      报警原因

      报警规则

      运行失败

      当任务运行失败时,即触发报警。

      业务延时过高

      当任务运行过程中的延时超过设定时间后,即触发报警。

      TPS超过范围

      当任务运行过程中的TPS(Transaction Per Second)超过设定的范围后,即触发报警。

      失败频率超过配置

      当任务运行过程中的失败频率超过设定的频率后,即触发报警。

      数据滞留超过配置

      当任务运行过程中的数据滞留超过设定的时间后,即触发报警。

      checkpoint失败配置

      当任务运行过程中的checkpoint连续失败超过设定的次数后,即触发报警。

      说明

      仅在计算源绑定UID项目下的任务,支持选择业务延时过高TPS超过范围失败频率超过配置报警原因。

    2. 根据您选择的报警原因,配置实时任务监控规则的监控区间、接收配置等参数。

      参数

      描述

      报警原因

      为您展示上一步中已选择的报警原因。同时您也可以修改报警原因。

      规则配置

      根据报警原因,配置报警规则:

      • 运行失败:运行失败即报警。

      • 业务延时过高:需要指定业务延时超过多少时间后报警。

      • TPS超过范围:需要指定TPS超过那个范围后报警。

      • 失败频率超过配置:需要指定失败频率超过多少次每分钟后报警。

      • 数据滞留超过配置:需要指定数据滞留超过多少秒后报警。

      • checkpoint失败配置:需要指定checkpoint连续失败几次后报警。

      报警频率

      通知报警信息给接收对象的频率。频率范围为1~59分钟/次。

      发送次数

      报警信息发送的次数,可选择特定次数后输入1~10次,或选择持续发送

      例如报警频率配置为1分钟/次,发送次数选择为持续发送,则报警信息将以1分钟/次的频率持续发送至接收人;若报警频率配置为1分钟/次,发送次数配置为3次,则报警信息将以1分钟/次的频率发送至接收人,持续3次。

      说明

      仅报警原因选择运行失败时,支持配置此项。

      监控区间

      设置实时任务监控规则任务运行情况的时间区间。您可以选择全天监控,也可以自定义监控时间段

      接收配置

      配置报警信息的接收人和接收方式。您可以在单个监控规则中配置不同的接收人,并且给不同接收人指定不同的接收方式:

      • 接收人包括责任人值班表自定义

        • 责任人:适用于需要报警给任务负责人的场景。

        • 值班表:适用于需要报警给值班人员的场景,以便及时处理异常。

          需要您提前完成值班表的创建,详情请参见管理值班表

        • 自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。

      • 接收方式包括钉钉、短信、电话、邮件、飞书和企业微信。

        重要

        选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加Dataphin成员

      例如,一个任务触发失败告警,希望该任务相关人都能收到告警信息,但是告警强度有所区别,您可以采用如下配置:

      • 为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。

      • 为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。

      • 为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。

    3. 选择监控项页签,选择需要配置监控规则的监控项。可输入监控任务名称的关键字进行搜索,或单击image图标,根据任务所在的项目进行筛选,项目列表中仅可选择当前登录用户拥有运维-访问目录权限的项目。

    4. 配置完成后单击确定

      重要

      单次配置最多支持选择100监控项,监控项包括任务和逻辑表的字段。

为单个任务配置批量监控报警规则

  1. Dataphin首页的顶部菜单栏中,选择研发 > 任务运维

  2. 在左侧导航栏中选择监控管理 > 实时任务监控

  3. 实时任务监控页面,单击+新建实时监控,选择批量监控规则配置

  4. 新建实时任务监控(批量监控规则配置)对话框中,进行以下配置。

    1. 监控任务:选择需要配置监控规则的实时任务。可输入任务名称的关键字进行搜索,或单击image图标,根据任务所在的项目进行筛选,项目列表中仅可选择当前登录用户拥有运维-访问目录权限的项目。

    2. 新建报警原因,并根据报警原因配置实时任务监控规则的监控区间、接收配置等参数。报警原因如下表,相应参数配置详情请参见报警原因参数配置

      报警原因

      报警规则

      运行失败

      当任务运行失败时,即触发报警。

      业务延时过高

      当任务运行过程中的延时超过设定时间后,即触发报警。

      TPS超过范围

      当任务运行过程中的TPS(Transaction Per Second)超过设定的范围后,即触发报警。

      失败频率超过配置

      当任务运行过程中的失败频率超过设定的频率后,即触发报警。

      数据滞留超过配置

      当任务运行过程中的数据滞留超过设定的时间后,即触发报警。

      checkpoint失败配置

      当任务运行过程中的checkpoint连续失败超过设定的次数后,即触发报警。

      说明

      仅在计算源绑定UID项目下的任务,支持选择业务延时过高TPS超过范围失败频率超过配置报警原因。

  5. 单击确定

管理监控报警规则

image

区块

说明

筛选及搜索区

可输入任务名称的关键字进行搜索或单击筛选展开筛选区,筛选项包括:

  • 报警原因:可选择一个或多个报警原因,包括业务延时过高TPS超过范围失败频率超过配置checkpoint失败配置运行失败数据滞留超过配置

  • 接收方式:可选择一个或多个接收方式,包括电话飞书短信钉钉邮件企业微信

  • 创建人:根据监控规则的创建人进行筛选,选中我创建的,可快速筛选出当前登录用户所创建的监控规则。

  • 接收人:根据监控规则中配置的接收人进行筛选,选中我接收的,可快读筛选出当前登录用户为接收人的监控规则。

  • 项目:根据任务所在项目进行筛选,可选择多个当前登录用户拥有运维-访问目录权限的项目。

如果您需要重新筛选,则单击重置,即可快速清空所有筛选条件,恢复系统默认。

功能区

监控列表

展示已配置的实时监控的任务名称和ID、项目、报警原因、创建人、接收人(类型)、接收方式、监控区间、最后修改时间、监控开关信息以及支持的操作。

  • 监控项操作:可针对监控规则中的一个监控项进行删除

  • 操作

    • 编辑:在编辑实时任务监控(批量监控规则配置)对话框中,编辑报警原因及其对应报警配置,不可修改监控任务

    • 删除:删除当前整个监控规则。

批量操作区

您可以批量删除监控报警规则、开启关闭监控开关。同时您可以更多接收人显示框后,新增、删除和替换自定义接收人及修改接收配置。

  • 开启/关闭:开启或关闭所选的监控规则。

  • 删除:删除所选的监控规则。

  • 新增/删除/替换自定义接收人:对所选监控规则的自定义接收人进行新增、删除或替换。

  • 修改接收配置:修改所选监控规则的接收配置,详细参数说明请参见接受配置

批量操作的权限限制,请参见调度运维权限列表