为了及时发现并处理任务运行过程中的异常,Dataphin支持批量为任务配置报警规则,便于您及时发现并处理异常,同时提高了为任务配置监控报警规则的效率。本文为您介绍如何为任务和逻辑表字段配置监控报警规则。
背景信息
Dataphin支持批量配置监控报警规则,包括为批量任务或字段配置相同的监控报警规则、为单个任务或字段配置批量监控报警规则,提高了配置监控报警规则的效率。
同时,Dataphin支持为单个监控报警规则配置不同的接收人,并且给不同接收人可以指定不同的接收方式,以实现某任务相关人员都能收到报警信息。例如:
为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。
前提条件
在执行操作前,请确认您已满足以下条件中的任意一个:
已提交Basic项目中的任务至生产环境。
已发布Dev项目中的任务至生产环境。具体操作,请参见发布任务。
使用限制
仅支持针对生产环境的任务进行配置监控报警规则。
为批量任务或字段配置相同的监控报警规则
请参见运维中心入口,进入运维中心。
按照下图指引,进入新建离线任务监控对话框。
在新建离线任务监控对话框,配置参数。
在配置报警原因页面,选择报警原因。
报警原因及触发报警规则详细说明如下。
报警原因
报警规则及适用场景
完成
当任务完成运行后,即可触发报警。适用于监控任务是否运行完成。
出错
当任务运行过程中出错后,即可触发报警。适用于监控任务运行过程中是否出错。
说明Dataphin会自动重试运行任务,直至重试次数耗尽。如果任务运行仍然出错,才会触发告警。
运行超时
当任务运行超过设定的时长后,即可触发报警。适用于监控任务需要在指定时长内完成运行。
未完成
当任务运行在指定的时间点未完成运行,即可触发报警。适用于监控任务需要在指定的时间点前完成运行。
数据延迟
当任务未完成数据延迟处理时,即可触发报警。适用对已配置数据延迟的事实逻辑表进行监控。
根据您选择的报警原因,配置对应的监控报警规则后,单击下一步。
参数
描述
报警原因
为您展示上一步中已选择的报警原因。如果上一步中您选择了运行超过或未完成,则需要指定时间:
运行超过:设置运行总时长,超过改时长未运行完成则告警。
未完成:设置预计运行完成的时间点,超过该时间点未运行完成则告警。
说明针对未完成的监控报警,更改监控任务的调度周期为小时或分钟,将会导致对应监控规则失效。
报警频率
告警信息发送的频率。频率范围为1~59分钟/次。
监控区间
设置监控生效的时间区间。您可以选择全天监控,也可以指定具体时间段。
接收配置
配置报警信息的接收人以及对应的接收方式。您可以在单个监控规则中配置不同的接收人,并且给不同接收人指定不同的接收方式:
接收人包括责任人、值班表和自定义:
责任人:适用于需要报警给任务负责人的场景。
值班表:适用于需要报警给值班人员的场景,以便及时处理异常。
需要您提前完成值班表的创建,详情请参见新建值班表。
自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。
接收方式包括钉钉、短信、电话和邮件。
重要选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加、配置及管理Dataphin成员。
例如,一个任务触发失败告警,希望该任务相关人都能收到告警信息,但是告警强度有所区别,您可以采用如下配置:
为值班人配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
为责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。
发送次数
设置每个报警信息最多给接收人发送几次报警通知。
配置告警规则之后,您需要在选择监控项页签,按照下图指引,选择需要按照该告警规则监控的任务后,单击确定。
重要单次配置最多支持选择20个监控项。监控项包括任务和逻辑表的字段。
为一个任务或字段配置批量监控报警规则
请参见运维中心入口,进入运维中心。
在运维中心,按照下图指引,进入新建离线任务监控对话框。
在新建离线任务监控对话框,按照下图指引,选择需要监控的任务及配置监控报警规则后,单击确定。
在①区域选择需要配置监控规则的任务或逻辑表字段。
在②区域添加多个报警原因。报警原因及触发报警规则详细说明如下。
报警原因
报警规则及适用场景
完成
当任务完成运行后,即可触发报警。适用于监控任务是否运行完成。
出错
当任务运行过程中出错后,即可触发报警。适用于监控任务运行过程中是否出错。
说明Dataphin会自动重试运行任务,直至重试次数耗尽。如果任务运行仍然出错,才会触发告警。
运行超时
当任务运行超过设定的时长后,即可触发报警。适用于监控任务需要在指定时长内完成运行。
未完成
当任务运行在指定的时间点未完成运行,即可触发报警。适用于监控任务需要在指定的时间点前完成运行。
数据延迟
当任务未完成数据延迟处理时,即可触发报警。适用对已配置数据延迟的事实逻辑表进行监控。
在③区域配置监控区间、接收配置等参数。
参数
描述
报警原因
为您展示区域②中已选择的报警原因,并为报警原因配置报警规则。
报警频率
通知报警信息给接收对象的频率。频率范围为1~59分钟/次。
监控区间
设置离线任务监控规则任务运行情况的时间区间。您可以选择全天监控,也可以自定义监控时间段。
接收配置
配置报警信息的接收人以及对应的接收方式。您可以在单个监控规则中配置不同的接收人,并且给不同接收人指定不同的接收方式:
接收人包括责任人、值班表和自定义:
责任人:适用于需要报警给任务负责人的场景。
值班表:适用于需要报警给值班人员的场景,以便及时处理异常。
需要您提前完成值班表的创建,详情请参见新建值班表。
自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。
接收方式包括钉钉、短信、电话和邮件。
重要选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加、配置及管理Dataphin成员。
查看及管理已生成的监控报警规则
在离线监控配置页面,您可以单击任务监控和字段监控页签,查看已生成的监控报警规则。
任务监控页面
任务监控页面展示已配置的任务监控的监控项(监控任务名称和ID)、报警原因、创建人、接收方式、接收人、最后修改时间、监控开关的状态信息。
操作
描述
筛选
在上图的模块①区域,您可以指定报警原因、接收方式、创建人或接收人作为筛选条件,快速高效的定位目标,查看监控配置的详情。
筛选项包括:
报警原因:包括出错、完成、运行超时和未完成。
接收方式:包括电话、短信、钉钉和邮件。
创建人:即创建该条监控规则的用户。
接收人:即每条监控规则中配置的告警接收对象。
如果您需要重新筛选,则单击重置,即可快速清空所有筛选条件,恢复系统默认。
单节点操作
在图的模块②区域,编辑、删除监控规则和开启或关闭监控开关。
批量操作
在图的模块③区域,批量删除监控报警规则、开启或关闭监控开关。同时您可以单击接收人显示框后,新增、删除和替换自定义接收人及修改接收配置。
批量操作的权限限制,请参见调度运维权限列表。
字段监控页面
任务监控页面展示已配置的字段监控的逻辑表、监控项、报警原因、创建人、接收方式、接收人、最后修改时间、监控开关的状态信息。
操作
描述
筛选
在上图的模块①区域,您可以指定逻辑表、监控项、接收方式、创建人或接收人作为筛选条件,快速高效的定位目标,查看监控配置的详情。
筛选项包括:
逻辑表:选择已配置监控的逻辑表。
监控项:选择已配置监控的字段。
接收方式:包括电话、短信、钉钉和邮件。
创建人:即创建该条监控规则的用户。
接收人:即每条监控规则中配置的告警接收对象。
如果您需要重新筛选,则单击重置,即可快速清空所有筛选条件,恢复系统默认。
单节点操作
在上图的模块②区域,编辑、删除监控规则和开启或关闭监控开关。
批量操作
在上图的模块③区域,批量删除监控报警规则、开启或关闭监控开关。同时您可以单击接收人显示框后,新增、删除和替换自定义接收人及修改接收配置。
批量操作的权限限制,请参见调度运维权限列表。
后续步骤
您可以在报警中心查看所有的报警事件。如何查看报警事件,请参见告警事件。