为了及时发现并处理任务运行过程中的异常,Dataphin支持批量为任务配置报警规则,便于您及时发现并处理异常,同时提高了为任务配置监控报警规则的效率。本文为您介绍如何为实时任务配置监控告警规则。
背景信息
Dataphin支持批量配置监控报警规则,包括为批量任务或字段配置相同的监控报警规则、为单个任务或字段配置批量监控报警规则,提高了配置监控报警规则的效率。
同时,Dataphin支持为单个监控报警规则配置不同的接收人,并且给不同接收人可以指定不同的接收方式,以实现某任务相关人员都能收到报警信息。例如:
为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。
前提条件
在执行操作前,请确认您已满足如下条件:
已提交Basic项目中的任务至生产环境。
已发布Dev项目中的任务至生产环境。具体操作,请参见管理发布任务。
使用限制
仅支持针对生产环境的任务进行配置监控报警规则。
单击配置最多支持选择100个监控项。监控项包括任务和逻辑表字段。
Ververica Flink不支持告警配置。
批量为任务配置相同的监控规则
请参见运维中心入口,进入运维中心。
按照下图操作指引,进入新建实时任务监控配置(批量监控项配置)对话框。
在新建实时任务监控配置(批量监控项配置)对话框,配置参数。
在配置报警原因页面,选择报警原因。
不同实时计算引擎支持的报警规则不同,请以实际页面显示为准。
报警规则说明如下表所示。
报警原因
报警规则
运行失败
当任务运行失败时,即触发报警。
业务延时过高
当任务运行过程中的延时超过设定时间后,即触发报警。
TPS超过范围
当任务运行过程中的TPS(Transaction Per Second)超过设定的范围后,即触发报警。
失败频率超过配置
当任务运行过程中的失败频率超过设定的频率后,即触发报警。
数据滞留超过配置
当任务运行过程中的数据滞留超过设定的时间后,即触发报警。
checkpoint失败配置
当任务运行过程中的checkpoint连续失败超过设定的次数后,即触发报警。
根据您选择的报警原因,配置实时任务监控规则的监控区间、接收配置等参数。
参数
描述
报警原因
为您展示上一步中已选择的报警原因。同时您也可以修改报警原因。
规则配置
根据报警原因,配置报警规则:
运行失败:运行失败即报警。
业务延时过高:需要指定业务延时超过多少时间后报警。
TPS超过范围:需要指定TPS超过那个范围后报警。
失败频率超过配置:需要指定失败频率超过多少次每分钟后报警。
数据滞留超过配置:需要指定数据滞留超过多少秒后报警。
checkpoint失败配置:需要指定checkpoint连续失败几次后报警。
报警频率
通知报警信息给接收对象的频率。频率范围为1~59分钟/次。
监控区间
设置实时任务监控规则任务运行情况的时间区间。您可以选择全天监控,也可以自定义监控时间段。
接收配置
配置报警信息的接收人和接收方式。您可以在单个监控规则中配置不同的接收人,并且给不同接收人指定不同的接收方式:
接收人包括责任人、值班表和自定义:
责任人:适用于需要报警给任务负责人的场景。
值班表:适用于需要报警给值班人员的场景,以便及时处理异常。
需要您提前完成值班表的创建,详情请参见管理值班表。
自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。
接收方式包括钉钉、短信、电话和邮件。
重要选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加Dataphin成员。
例如,一个任务触发失败告警,希望该任务相关人都能收到告警信息,但是告警强度有所区别,您可以采用如下配置:
为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。
在选择监控项页签,选择需要配置监控规则的监控项。
重要单次配置最多支持选择100个监控项。监控项包括任务和逻辑表的字段。
为单个任务配置批量监控报警规则
请参见运维中心入口,进入运维中心。
按照下图操作指引,进入新建实时任务监控(批量监控规则配置)对话框。
在新建实时任务监控(批量监控规则配置)对话框,按照如下步骤配置参数。
在①区域选择需要配置监控规则的实时任务。
在②区域选择报警原因。报警原因及触发报警规则详细说明如下。
不同实时计算引擎支持的报警规则不同,请以实际页面显示为准。
报警原因
报警规则
运行失败
当任务运行失败时,即触发报警。
业务延时过高
当任务运行过程中的延时超过设定时间后,即触发报警。
TPS超过范围
当任务运行过程中的TPS(Transaction Per Second)超过设定的范围后,即触发报警。
失败频率超过配置
当任务运行过程中的失败频率超过设定的频率后,即触发报警。
数据滞留超过配置
当任务运行过程中的数据滞留超过设定的时间后,即触发报警。
checkpoint失败配置
当任务运行过程中的checkpoint连续失败超过设定的次数后,即触发报警。
在③区域配置监控区间、接收配置等参数。
参数
描述
报警原因
为您展示区域②中已选择的报警原因,并为报警原因配置报警规则。
报警频率
通知报警信息给接收对象的频率。频率范围为1~59分钟/次。
监控区间
设置任务监控规则任务运行情况的时间区间。您可以选择全天监控,也可以自定义监控时间段。
接收配置
配置报警信息的接收人和接收方式。您可以在单个监控规则中配置不同的接收人,并且给不同接收人指定不同的接收方式:
接收人包括责任人、值班表和自定义:
责任人:适用于需要报警给任务负责人的场景。
值班表:适用于需要报警给值班人员的场景,以便及时处理异常。
需要您提前完成值班表的创建,详情请参见管理值班表。
自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。
接收方式包括钉钉、短信、电话和邮件。
重要选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加Dataphin成员。
为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。
单击确定。
查看及管理已生成的监控报警规则
实时监控页面展示已配置的实时监控的任务名称和ID、报警原因、创建人、接收方式、接收人、最后修改时间、监控开关的状态信息。
区域 | 描述 |
①筛选及搜索区 | 您可以指定报警原因、接收方式、创建人或接收人作为筛选条件,快速高效的定位目标,查看监控配置的详情。 筛选项包括:
如果您需要重新筛选,则单击重置,即可快速清空所有筛选条件,恢复系统默认。 |
②监控项操作区 | 您可以编辑、删除监控规则和开启或关闭监控开关。 |
③批量操作区 | 您可以批量删除监控报警规则、开启或关闭监控开关。同时您可以单击接收人显示框后,新增、删除和替换自定义接收人及修改接收配置。 批量操作的权限限制,请参见调度运维权限列表。 |
后续步骤
您可以在告警中心查看所有的告警事件。如何查看告警事件,请参见告警事件。