为了及时发现并处理任务运行过程中的异常,Dataphin支持批量为任务配置报警规则,便于您及时发现并处理异常,同时提高了为任务配置监控报警规则的效率。本文为您介绍如何为实时任务配置监控告警规则。
背景信息
Dataphin支持批量配置监控报警规则,包括为批量任务或字段配置相同的监控报警规则、为单个任务或字段配置批量监控报警规则,提高了配置监控报警规则的效率。不同实时计算引擎支持的报警原因不同。
监控原因 | Ververica Flink | Blink |
业务延时过高 | 支持 | 支持 |
TPS超过范围 | 支持 | 支持 |
失败频率超过配置 | 支持 | 支持 |
数据滞留超过配置 | - | 支持 |
checkpoint失败超过配置 | - | 支持 |
运行失败 | 支持 | - |
同时,Dataphin支持为单个监控报警规则配置不同的接收人,并且给不同接收人可以指定不同的接收方式,以实现某任务相关人员都能收到报警信息。例如:
为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。
前提条件
在执行操作前,请确认您已满足如下条件:
已提交Basic项目中的任务至生产环境。
已发布Dev项目中的任务至生产环境。具体操作,请参见管理发布任务。
使用限制
仅支持针对生产环境的任务进行配置监控报警规则。
单击配置最多支持选择100个监控项。监控项包括任务和逻辑表字段。
Ververica Flink不支持告警配置。
批量为任务配置相同的监控规则
在Dataphin首页的顶部菜单栏中,选择研发 > 任务运维。
在左侧导航栏中选择监控管理 > 实时任务监控。
在实时任务监控页面,单击+新建实时监控,选择批量监控项配置。
在新建实时任务监控配置(批量监控项配置)对话框中,配置以下参数。
在配置报警原因页面,选择报警原因。
报警原因
报警规则
运行失败
当任务运行失败时,即触发报警。
业务延时过高
当任务运行过程中的延时超过设定时间后,即触发报警。
TPS超过范围
当任务运行过程中的TPS(Transaction Per Second)超过设定的范围后,即触发报警。
失败频率超过配置
当任务运行过程中的失败频率超过设定的频率后,即触发报警。
数据滞留超过配置
当任务运行过程中的数据滞留超过设定的时间后,即触发报警。
checkpoint失败配置
当任务运行过程中的checkpoint连续失败超过设定的次数后,即触发报警。
说明仅在计算源绑定UID项目下的任务,支持选择业务延时过高、TPS超过范围和失败频率超过配置报警原因。
根据您选择的报警原因,配置实时任务监控规则的监控区间、接收配置等参数。
参数
描述
报警原因
为您展示上一步中已选择的报警原因。同时您也可以修改报警原因。
规则配置
根据报警原因,配置报警规则:
运行失败:运行失败即报警。
业务延时过高:需要指定业务延时超过多少时间后报警。
TPS超过范围:需要指定TPS超过那个范围后报警。
失败频率超过配置:需要指定失败频率超过多少次每分钟后报警。
数据滞留超过配置:需要指定数据滞留超过多少秒后报警。
checkpoint失败配置:需要指定checkpoint连续失败几次后报警。
报警频率
通知报警信息给接收对象的频率。频率范围为1~59分钟/次。
发送次数
报警信息发送的次数,可选择特定次数后输入1~10次,或选择持续发送。
例如报警频率配置为1分钟/次,发送次数选择为持续发送,则报警信息将以1分钟/次的频率持续发送至接收人;若报警频率配置为1分钟/次,发送次数配置为3次,则报警信息将以1分钟/次的频率发送至接收人,持续3次。
说明仅报警原因选择运行失败时,支持配置此项。
监控区间
设置实时任务监控规则任务运行情况的时间区间。您可以选择全天监控,也可以自定义监控时间段。
接收配置
配置报警信息的接收人和接收方式。您可以在单个监控规则中配置不同的接收人,并且给不同接收人指定不同的接收方式:
接收人包括责任人、值班表和自定义:
责任人:适用于需要报警给任务负责人的场景。
值班表:适用于需要报警给值班人员的场景,以便及时处理异常。
需要您提前完成值班表的创建,详情请参见管理值班表。
自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。
接收方式包括钉钉、短信、电话、邮件、飞书和企业微信。
重要选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加Dataphin成员。
例如,一个任务触发失败告警,希望该任务相关人都能收到告警信息,但是告警强度有所区别,您可以采用如下配置:
为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。
在选择监控项页签,选择需要配置监控规则的监控项。可输入监控任务名称的关键字进行搜索,或单击
图标,根据任务所在的项目进行筛选,项目列表中仅可选择当前登录用户拥有运维-访问目录权限的项目。
配置完成后单击确定。
重要单次配置最多支持选择100个监控项,监控项包括任务和逻辑表的字段。
为单个任务配置批量监控报警规则
在Dataphin首页的顶部菜单栏中,选择研发 > 任务运维。
在左侧导航栏中选择监控管理 > 实时任务监控。
在实时任务监控页面,单击+新建实时监控,选择批量监控规则配置。
在新建实时任务监控(批量监控规则配置)对话框中,进行以下配置。
监控任务:选择需要配置监控规则的实时任务。可输入任务名称的关键字进行搜索,或单击
图标,根据任务所在的项目进行筛选,项目列表中仅可选择当前登录用户拥有运维-访问目录权限的项目。
新建报警原因,并根据报警原因配置实时任务监控规则的监控区间、接收配置等参数。报警原因如下表,相应参数配置详情请参见报警原因参数配置。
报警原因
报警规则
运行失败
当任务运行失败时,即触发报警。
业务延时过高
当任务运行过程中的延时超过设定时间后,即触发报警。
TPS超过范围
当任务运行过程中的TPS(Transaction Per Second)超过设定的范围后,即触发报警。
失败频率超过配置
当任务运行过程中的失败频率超过设定的频率后,即触发报警。
数据滞留超过配置
当任务运行过程中的数据滞留超过设定的时间后,即触发报警。
checkpoint失败配置
当任务运行过程中的checkpoint连续失败超过设定的次数后,即触发报警。
说明仅在计算源绑定UID项目下的任务,支持选择业务延时过高、TPS超过范围和失败频率超过配置报警原因。
单击确定。
管理监控报警规则
区块 | 说明 |
①筛选及搜索区 | 可输入任务名称的关键字进行搜索或单击筛选展开筛选区,筛选项包括:
如果您需要重新筛选,则单击重置,即可快速清空所有筛选条件,恢复系统默认。 |
②功能区 |
|
③监控列表 | 展示已配置的实时监控的任务名称和ID、项目、报警原因、创建人、接收人(类型)、接收方式、监控区间、最后修改时间、监控开关信息以及支持的操作。
|
④批量操作区 | 您可以批量删除监控报警规则、开启或关闭监控开关。同时您可以更多接收人显示框后,新增、删除和替换自定义接收人及修改接收配置。
批量操作的权限限制,请参见调度运维权限列表。 |