基线监控概述

将任务或明细汇总表字段添加到基线监控的保障对象后,基线监控能够及时捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低运维成本、避免无效报警、自动监控所有重要任务。

前提条件

已购买智能运维增值服务并且当前租户已开通智能运维模块。

应用场景

  • 管理任务优先级在任务数量越来越多,而在资源有限的情况下,当发生资源抢占时,您可以将重要任务添加至基线上,并为基线设置较高的优先级,以保证重要的任务可以优先分配到资源。

  • 自动推算任务预计产出时间任务的运行受到资源和上游任务运行情况的影响,您可以将任务添加至基线上,Dataphin将计算出该任务每天或每小时的预计产出时间,便于您提前感知。

  • 自动圈选监控范围添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,降低人工运维成本。

  • 基线及事件告警您可以将任务添加至基线上,并设置基线保障产出时间。当系统预测到基线上任务无法在保障产出时间前完成,或上游节点任务有出错或变慢的情况时,将发送告警信息,您可以根据告警信息及时处理问题,保障任务在保障产出时间前运行完成。

  • 关键路径与关键实例识别:基线上需要保障的任务,其依赖关系可能错综复杂,Dataphin提供甘特图功能帮助您快速定位阻塞基线上数据产出的关键路径与关键实例,其中影响基线任务产出的多条路径中,耗时最长的路径为基线关键路径。

名词解释

在使用Dataphin基线监控功能前,建议您可先理解基线监控所涉及的基本概念和术语。

  • 基线:可以形象的理解为在高速公路上的应急车道。将任务添加到基线的保障对象后,相对于普通的任务,在基线上的任务具备更高的运行优先级,并且可以预先设置保障产出时间,系统将根据任务运行情况计算基线任务的预计完成时间。当系统判断基线任务可能无法在承诺时间前完成,系统将发出告警。

  • 保障对象一个基线可以有1个或多个保障对象,保障节点支持物理任务和逻辑表字段2种。

  • 保障产出时间:任务运行成功的最晚时间点,即任务承诺在该时间点前完成。同时您可为基线设置预警余量,则系统依此进行计算并作为触发报警的预警时间在任务到达预警时间且未完成时系统将发出告警,以便在保障产出时间前存在一定的时间进行异常处理。

  • 预警时间:即等于保障产出时间-预警余量。

  • 历史预计产出时间:系统根据基线任务最近7天运行成功的记录进行推算每次运行的预计产出时间。

  • 基线实例状态:基线实例的状态包括:安全、预警、破线:

    • 安全:历史预计产出时间<预警时间。

    • 预警:预警时间<历史预计产出时间<保障产出时间。

    • 破线:预计完成时间>保障产出时间。

  • 关键路径(最长路径):影响基线任务运行的多条路径中,运行耗时最长的路径。可以简单的理解为PERT图的关键路径。

  • 基线告警:当业务时间到达基线的预警时间且未完成时,将产生基线告警。

  • 事件告警:基线任务及其上游任务出错,或关键路径上的任务变慢时,将产生事件告警。

功能概述

将重要任务添加到基线上后,将根据基线的优先级保障基线任务的运行,并根据基线任务的上下游依赖关系确定监控范围,根据该监控范围内任务的运行情况触发基线告警或事件告警。

image..png

使用基线监控基本流程如下。

  1. 新建基线并添加保障对象

    您可以在基线监控页面新建和管理基线:基线新建及管理操作,请参见新建基线监控

  2. 圈选监控范围

    创建基线任务后,基线会根据保障对象的依赖关系圈选需要监控的范围,将会影响基线数据产出的任务进行监控。圈选规则,请参见监控范围规则

  3. 触发告警并发送报警信息

    • 基线告警

      任务实际运行时,当业务时间到达基线的预警时间且基线任务未完成时,将产生基线告警。基线告警规则,请参见基线告警规则

    • 事件报警

      监控范围确定后,当基线任务及其上游任务出错,或关键路径上的任务变慢时,将会触发告警事件。事件告警规则,请参见事件告警规则

基线监控规则

在开始配置基线监控前,建议您先了解相关的基线监控规则。规则包括监控范围规则、基线告警规则、事件告警规则、历史预计产出时间规则、基线状态规则。

监控范围规则

创建基线任务后,基线会根据保障对象的依赖关系确定需要监控的范围,划定监控范围规则如下:

  • 上游任务:影响基线上任务数据产出的上游任务会被纳入基线监控范围。

  • 上游分支任务:不影响基线任务数据产出的上游其他分支任务不会纳入基线监控范围。

  • 下游任务:下游任务不会被纳入基线监控范围。

基线告警规则

将重要任务添加到基线上,设置基线保障产出时间预警余量后,系统会将保障产出时间-预警余量作为预警时间,任务实际运行时,当业务时间到达基线的预警时间且基线任务未完成时,将产生基线告警。

事件告警规则

监控范围确定后,当监控范围内的任务出现异常时,会触发事件告警。任务的异常包括:

  • 出错:任务运行失败。

  • 变慢:根据最近7次正常调度且运行成功的记录推算历史平均运行时长。若本次运行超过历史平均运行时长的30%,则触发变慢告警。

您可以进入告警中心查看产生的告警事件信息,详情请参见告警事件

历史预计产出时间规则

基线的历史预计产出时间是根据添加到基线的任务,最近7天运行成功的记录进行推算每次运行的预计产出时间,当基线有多个保障对象时,基线的历史预计产出时间以各基线任务平均完成时间进行推算。

说明

小时任务不会进行计算,数据不足时,可能存在误差,仅作为参考。

基线状态规则

设置基线保障对象保障产出时间预警余量后,基线将根据所设置参数决定基线状态的时间节点,不同时间节点基线状态不同。例如基线的预计产出时间为13:00,设置的保障产出时间为15:00预警余量为60分钟,即1个小时则当业务时间在保障产出时间-预警余量=14:00之前,基线状态为安全,12:00之后将触发基线告警,状态为预警。当业务时间到达保障产出时间15:00时,若基线任务仍然未完成,状态将为破线。

image..png

基线监控入口

  1. 在Dataphin首页,单击顶部菜单栏的研发

  2. 运维中心页面,单击侧边导航栏基线监控,进入基线监控页面。

    image.png

基线监控页面介绍

基线监控页面主要由搜索及筛选区、基线任务列表、批量操作区组成您可以在基线监控页面对创建的基线监控进行查看、编辑、变更记录、删除等运维操作。

image.png

区域

描述

搜索及筛选区

搜索及筛选区支持通过输入基线名称来筛选基线监控。同时支持勾选我负责的、监控开启或选择基线监控负责人、基线监控优先级进行快捷筛选。

  • 我负责的:筛选基线负责人为当前账号的基线。

  • 监控开启:筛选监控状态为开启的基线。

  • 负责人:对相应基线负责人的基线监控进行选择。

  • 优先级:可选择最高

  • 基线名称:支持模糊查询基线名称相应的基线监控。

操作区

  • 权限配置:您可以批量授权当前Dataphin实例的成员账号具备基线监控配置权限,包括新建、编辑、删除所有现有的基线。操作说明如下:

    重要

    超级管理员系统管理员可进行权限配置。

    1. 单击权限配置,进入基线监控权限配置。

    2. 在基线监控权限配置中,单击批量授权

    3. 批量授权:基线监控配置对话框,权限账号下拉选项中选择需要授权的成员账号。

    4. 单击确定,即可完成批量授权操作。

  • 新建基线:若您需新建基线监控,您可单击+新建基线进行添加。基线监控配置说明,请参见新建基线监控

  • 刷新:单击image图标,可刷新当前基线监控列表数据。

基线监控列表

基线监控页面以列表形式为您展示已配置的基线监控。包括基线名称、优先级、基线类型、监控开关、负责人、预警时间、保障时间。同时您可单击监控开关image..png按钮,开启和关闭基线监控。

说明

基线类型包括天基线空基线

  • 天基线:按照天维度对任务产出时间进行监测。

    空基线:未配置任何保障节点,可能是历史配置的保障节点已下线导致,建议进行修改或删除。

您可对基线监控执行运维管理,支持的操作如下:

  • 查看基线详情:单击image图标,可查看基线详情信息。

  • 编辑基线监控:单击image图标,可对基线监控进行修改。

  • 变更记录:单击image..png,可查看基线监控变更记录信息。

  • 删除基线监控:单击image图标,可生产当前基线监控。

    重要

    删除和关闭后基线监控不会继续生成基线实例。每晚23点生成基线实例,请于23点前完成变更。

批量操作区

您可通过批量操作区域提供的开启监控、关闭监控、修改负责人批量对基线监控进行批量处理,提高操作效率。