Dataphin支持项目级的监控报警,支持监控项目内全部任务或通过任务类型(任务类型+调度类型)批量配置,便于您及时发现并处理任务告警,同时提高任务监控报警配置的效率。本文为您介绍如何配置项目监控报警规则。
使用限制
仅支持针对Basic和Prod(生产)项目配置监控报警。
项目级监控告警规则最多支持配置30个。
操作步骤
在Dataphin首页,单击研发->任务运维。
按照以下操作指引,进入新建项目监控对话框。
选择项目(Dev-Prod模式需要选择为生产环境)->单击离线任务监控->单击项目监控->单击+新建项目监控。
在新建项目监控对话框,配置参数。
参数
说明
规则名称
填写规则名称。支持汉字、字母、数字或下划线(_)或短划线(-),36个字符以内。
监控范围
支持项目内全部任务或按任务类型筛选。
项目内全部任务:监控当前项目下的全部任务。
按任务类型筛选:支持通过任务类型(任务类型+调度类型)进行筛选监控当前项目下任务。
任务类型:包括脚本、明细及汇总表、全部任务类型。同时,任务类型为脚本、明细及汇总表时,支持配置细分类型,细分类型支持全部或自定义。明细及汇总表任务细分类型包括维度逻辑表、事实逻辑表、汇总逻辑表;脚本任务类型因计算引擎不同,支持配置的细分类型不同,具体请以页面实际显示为准。
调度类型:包括周期任务、手动任务、全部调度类型。同时,调度类型为周期任务时,支持配置调度周期,调度周期支持全部或自定义。调度周期包括年、月
、周、日、小时、分钟。
重要项目监控对项目下监控范围内的所有对象均生效,符合条件的新增任务将自动配置对应监控任务。同一监控对象,同时配置项目级和任务级监控且接收人与接收方式都相同时,以任务级监控的告警配置为准。更多信息,请参见监控告警规则优先级说明。
报警原因
项目级监控支持配置出错、未完成、运行超时的任务报警原因。若需要配置不同报警原因,您可以单击+新建报警原因进行添加。
出错:任务运行过程中出错后,即触发报警。逻辑表中的任一字段出错时将触发告警。
说明Dataphin会自动重试运行任务,直至重试次数耗尽。如果任务运行仍然出错,才会触发告警。
未完成:设置未完成须设置监控的对象类型以及未完成的时间点(即触发条件),超过该时间点未运行完成则告警。监控的对象支持选择监控日/周/月调度周期任务或小时/分钟调度周期任务。需要至少选择配置监控其中一类的周期任务。
说明修改未完成告警配置后将在次日生效。
日/周/月调度周期任务:任务在配置的触发条件时间内未完成,则告警。
小时/分钟调度周期任务:触发条件支持特定时间后仍未完成和实例在定时运行时间后仍未完成。
特定时间后仍未完成:对于受监控的小时/分钟调度任务的指定周期,在指定时间后仍未运行完成,将会触发告警。指定周期的周期范围支持1~288个周期。若需要添加多个周期,您可以单击+添加周期,最大支持添加24个周期,周期之间不可重复。
实例在定时运行时间后仍未完成:对于受监控的小时/分钟调度任务的指定监控周期,在定时运行时间后的指定时间仍未运行完成,将会触发告警。监控周期范围支持快捷选择全部、第一个周期、最后一个周期或自定义勾选需要监控的周期范围。周期范围支持1~288个周期。
重要针对未完成的监控报警,更改监控任务的调度周期为小时或分钟,可能会导致对应监控规则失效。
指定时间点逻辑表中存在未完成的字段将触发告警(仅天级任务有效)。
运行超时:设置运行超时须设置运行超过时间,支持配置的运行超时范围为0~19999分钟,若超出范围将以输入值的临近默认值为运行时间范围。从实例运行状态变成运行中开始计算,经过指定时长后任务级别任务未运行结束或逻辑表存在字段仍未运行结束则触发报警。
监控区间
设置监控生效的时间区间。支持全天或指定时段。指定时段时须配置起始时点和结束时点。
报警频率
告警信息发送的频率。支持配置频率范围为1~59分钟/次,若超出范围将以输入值的临近默认值为报警频率。
发送次数
报警触发时,报警信息发送的次数。支持设置1~10之间的整数,若超出范围将以输入值的临近默认值作为发生次数。
接收配置
报警的接收人配置。接收人支持责任人、值班表或自定义。若需要不同的接收人配置,您可以单击新增接收人进行添加。
责任人:任务负责人。
值班表:告警中心所配置的值班表。需要您提前完成值班表的创建,详情请参见管理值班表。
自定义:适用于需要报警给非责任人和值班人员的场景,例如需要报警给项目管理员。
接收方式:支持电话、邮件、短信接收方式。
重要选择接收人对应的联系方式。如何为接收人配置联系方式,请参见添加Dataphin成员。
单击确定,完成项目监控报警配置。
后续步骤
您可以在告警中心查看所有的报警事件。如何查看报警事件,请参见告警事件。