将任务或明细汇总表字段添加到基线监控的保障对象后,基线监控能够及时捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低运维成本、避免无效报警、自动监控所有重要任务。
前提条件
已购买智能运维增值服务并且当前租户已开通智能运维模块。
应用场景
管理任务优先级:在任务数量越来越多,而在资源有限的情况下,当发生资源抢占时,您可以将重要任务添加至基线上,并为基线设置较高的优先级,以保证重要的任务可以优先分配到资源。
自动推算任务预计产出时间:任务的运行受到资源和上游任务运行情况的影响,您可以将任务添加至基线上,Dataphin将计算出该任务每天或每小时的预计产出时间,便于您提前感知。
自动圈选监控范围:添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,降低人工运维成本。
基线及事件告警:您可以将任务添加至基线上,并设置基线保障产出时间。当系统预测到基线上任务无法在保障产出时间前完成,或上游节点任务有出错或变慢的情况时,将发送告警信息,您可以根据告警信息及时处理问题,保障任务在保障产出时间前运行完成。
关键路径与关键实例识别:基线上需要保障的任务,其依赖关系可能错综复杂,Dataphin提供甘特图功能帮助您快速定位阻塞基线上数据产出的关键路径与关键实例,其中影响基线任务产出的多条路径中,耗时最长的路径为基线关键路径。
名词解释
在使用Dataphin基线监控功能前,建议您可先理解基线监控所涉及的基本概念和术语。
基线:可以形象的理解为在高速公路上的应急车道。将任务添加到基线的保障对象后,相对于普通的任务,在基线上的任务具备更高的运行优先级,并且可以预先设置保障产出时间,系统将根据任务运行情况计算基线任务的预计完成时间。当系统判断基线任务可能无法在承诺时间前完成,系统将发出告警。
保障对象:一个基线可以有1个或多个保障对象,保障节点支持物理任务和逻辑表字段2种。
保障产出时间:任务运行成功的最晚时间点,即任务承诺在该时间点前完成。同时您可为基线设置预警余量,则系统依此进行计算并作为触发报警的预警时间,在任务到达预警时间且未完成时,系统将发出告警,以便在保障产出时间前存在一定的时间进行异常处理。
预警时间:即等于保障产出时间-预警余量。
历史预计产出时间:系统根据基线任务最近7天运行成功的记录进行推算每次运行的预计产出时间。
基线实例状态:基线实例的状态包括:安全、预警、破线:
安全:历史预计产出时间<预警时间。
预警:预警时间<历史预计产出时间<保障产出时间。
破线:预计完成时间>保障产出时间。
关键路径(最长路径):影响基线任务运行的多条路径中,运行耗时最长的路径。可以简单的理解为PERT图的关键路径。
基线告警:当业务时间到达基线的预警时间且未完成时,将产生基线告警。
事件告警:基线任务及其上游任务出错,或关键路径上的任务变慢时,将产生事件告警。
功能概述
将重要任务添加到基线上后,将根据基线的优先级保障基线任务的运行,并根据基线任务的上下游依赖关系确定监控范围,根据该监控范围内任务的运行情况触发基线告警或事件告警。
使用基线监控基本流程如下。
基线监控规则
在开始配置基线监控前,建议您先了解相关的基线监控规则。规则包括监控范围规则、基线告警规则、事件告警规则、历史预计产出时间规则、基线状态规则。
监控范围规则
创建基线任务后,基线会根据保障对象的依赖关系确定需要监控的范围,划定监控范围规则如下:
上游任务:影响基线上任务数据产出的上游任务会被纳入基线监控范围。
上游分支任务:不影响基线任务数据产出的上游其他分支任务不会纳入基线监控范围。
下游任务:下游任务不会被纳入基线监控范围。
基线告警规则
将重要任务添加到基线上,设置基线保障产出时间和预警余量后,系统会将保障产出时间-预警余量作为预警时间,任务实际运行时,当业务时间到达基线的预警时间且基线任务未完成时,将产生基线告警。
事件告警规则
监控范围确定后,当监控范围内的任务出现异常时,会触发事件告警。任务的异常包括:
出错:任务运行失败。
变慢:根据最近7次正常调度且运行成功的记录推算历史平均运行时长。若本次运行超过历史平均运行时长的30%,则触发变慢告警。
您可以进入告警中心查看产生的告警事件信息,详情请参见告警事件。
历史预计产出时间规则
基线的历史预计产出时间是根据添加到基线的任务,最近7天运行成功的记录进行推算每次运行的预计产出时间,当基线有多个保障对象时,基线的历史预计产出时间以各基线任务平均完成时间进行推算。
小时任务不会进行计算,数据不足时,可能存在误差,仅作为参考。
基线状态规则
设置基线保障对象、保障产出时间和预警余量后,基线将根据所设置参数决定基线状态的时间节点,不同时间节点基线状态不同。例如基线的预计产出时间为13:00,设置的保障产出时间为15:00,预警余量为60分钟,即1个小时。则当业务时间在保障产出时间-预警余量=14:00之前,基线状态为安全,12:00之后将触发基线告警,状态为预警。当业务时间到达保障产出时间15:00时,若基线任务仍然未完成,状态将为破线。
基线监控入口
在Dataphin首页,单击顶部菜单栏的研发。
在运维中心页面,单击侧边导航栏基线监控,进入基线监控页面。
基线监控页面介绍
基线监控页面主要由搜索及筛选区、基线任务列表、批量操作区组成。您可以在基线监控页面对创建的基线监控进行查看、编辑、变更记录、删除等运维操作。
区域 | 描述 |
①搜索及筛选区 | 搜索及筛选区支持通过输入基线名称来筛选基线监控。同时支持勾选我负责的、监控开启或选择基线监控负责人、基线监控优先级进行快捷筛选。
|
②操作区 |
|
③基线监控列表 | 基线监控页面以列表形式为您展示已配置的基线监控。包括基线名称、优先级、基线类型、监控开关、负责人、预警时间、保障时间。同时您可单击监控开关下按钮,开启和关闭基线监控。 说明 基线类型包括天基线和空基线。
您可对基线监控执行运维管理,支持的操作如下:
|
④批量操作区 | 您可通过批量操作区域提供的开启监控、关闭监控、修改负责人批量对基线监控进行批量处理,提高操作效率。 |