文档

批量创建质量规则

更新时间:

批量创建质量规则可帮助您为监控对象配置统一的质量规则,并设置异常告警信息,实时监控对象的动态。本文为您介绍如何批量配置质量规则。

前提条件

已将数据表或指标发布至生产环境,发布详情请参见管理发布任务

权限说明

  • 超级管理员、质量管理员支持批量配置质量规则、新建及删除异常归档表、配置打分权重。

  • 质量负责人支持在自己所负责的监控对象下配置质量规则、新建及删除异常归档表、配置打分权重。

  • 质量负责人、普通用户需具有数据表、数据源的读取权限,如需申请,请参见申请、续期和交还表权限申请数据源权限

说明

仅Dataphin数据表和全域数据表支持配置异常归档表和打分权重。

校验规则说明

数据表参与质量规则校验时,如果触发了质量弱监控规则,系统会给您发送告警消息,便于您及时发现并处理异常;如果触发了质量强监控规则,系统会自动中断该表所在的任务,避免脏数据流入下游,同时系统会给您发送告警消息,便于您及时发现并处理异常。

批量添加质量规则

批量添加质量规则可满足不同对象需配置同一个质量规则的场景,提高规则配置效率,支持表级或字段级配置。不同监控对象的配置方式除圈选对象方式不同外,其他基本一致,下图以Dataphin数据表为例。

  1. 在Dataphin首页,单击顶部菜单栏的资产

  2. 按照下图操作指引,进入添加质量规则页面。

    image..png

  3. 添加质量规则页面,配置参数。

    1. 基本信息配置

      字段级基本信息配置

      image.png

      表级基本信息配置

      image.png

      参数

      描述

      规则名称

      自定义质量规则的名称。选择监控对象后,每个对象可单独调整。

      规则强度

      支持弱规则强规则

      • 如果您选择了弱规则,则质量规则校验的结果为异常时报警但不阻塞下游任务节点。

      • 如果您选择了强规则,则质量规则校验的结果为异常时报警,同时在有下游任务的情况下(代码检查调度、任务触发调度)会阻塞下游任务,防止污染数据扩散;如果没有下游任务(如周期质量调度),则仅告警。

      描述

      自定义质量规则描述。不超过128个字符。

      配置方式

      支持模板创建和自定义SQL。

      • 模板创建:使用通用的系统模板和自定义的业务模板,快速创建质量规则。

        • 系统模板:模板内置参数可配置,适合通用的规则创建。

        • 自定义模板:模板预置参数,无需配置,一般用于含有业务逻辑的规则创建。

      • 自定义SQL:可通过SQL灵活自定义质量监控规则,适用于灵活复杂场景。仅自定义SQL模板支持批量配置质量规则。

      说明

      数据源、实时元表不支持配置方式。

      规则模板

      不同监控对象所支持的规则模板不同。

      • Dataphin数据表全域数据表支持的规则模板为完整性唯一性及时性有效性一致性稳定性自定义SQL。更多模板详情请参见模板类型说明

        • 完整性:包括字段空值校验字段空字符串校验

        • 唯一性:包含字段唯一性校验字段分组个数校验字段重复值个数校验

        • 及时性:包含时间函数比较单表时间字段比较两表时间字段比较

        • 有效性:包含字段格式校验字段长度校验字段值域校验码表参照对比数据标准码表参照对比(需开通数据标准模块)。

        • 一致性:包含单表字段值一致性比较单表字段统计值一致性比较单字段业务逻辑一致性比较两表字段值一致性比较两表字段统计值一致性比较两表字段业务逻辑一致性比较跨源两表字段统计值一致性比较

        • 稳定性:包含表稳定性校验表波动性校验字段稳定性校验字段波动性校验

        • 自定义SQL:包含自定义SQL规则模板创建的信息。

      • 指标支持的规则模板为唯一性稳定性。更多模板详情请参见模板类型说明

        • 唯一性:包含字段分组个数校验字段重复值个数校验

        • 稳定性:包含字段稳定性校验字段波动性校验

      • 数据源支持的规则模板为稳定性

        • 连通性监测:配置到Dataphin上的数据源因网络变更、用户名、密码等原因导致连接不上,进而导致任务报错,对连通性监测的变化进行加监控告警。

        • 表结构异动:上游表的结构变化,如更名、删除、增减字段,进而导致下游报错,对表结构的变化进行加监控告警。

      • 实时元表支持的规则模板为一致性稳定性。更多模板详情请参见模板类型说明

        • 一致性:包含实时离线对比实时对链路对比

        • 稳定性:包含实时统计值检测

      规则类型

      规则类型和模板有关,是模板最基础的属性,可作为说明和筛选功能。

      对象筛选

      您可根据不同条件筛选监控对象。

      • Dataphin数据表:根据表类型、环境、所属项目(表类型为物理表)/所属板块(表类型为逻辑表)筛选数据表。

      • 全域数据表:根据数据源类型、数据源筛选数据表。

      • 指标:根据数据板块、汇总逻辑表筛选指标。

      • 数据源:根据数据源类型筛选数据源。

      • 实时元表:根据环境、所属项目筛选数据表。

      对象选择

      勾选您所需配置的数据表及该数据表的字段。

      • 数据表:当规则模板选择稳定性-表稳定性校验稳定性-表波动性校验时,支持表级配置。对象选择只需勾选数据表。

      • 数据源:当规则模板选择稳定性-表结构异动监测,支持表级配置。对象选择需勾选数据表。

    2. 单击下一步

      单击取消后,此次配置的质量规则均不会被添加。

    3. 规则配置(数据源无需配置,可直接查看下一个步骤

      参数

      描述

      基准表

      对象选择所勾选的数据表。基于该表的字段进行规则详情配置。例如:A表有id、name两个字段,B表有id、age两个字段,C表有name、age两个字段,以A表为基准表,id为校验字段,则B表校验通过,C表校验不通过。

      说明
      • 当监控对象为数据表和实时元表且规则模板选择复杂(即校验时除了校验字段外还需其他字段)配置模板时,需配置基准表。

      • 当需批量配置对比字段,不同的表,字段不同,则基准表可提供快捷选择。

        基准表适用场景:若有相似或者相同需求的情况下,推荐使用批量配置;若是完全不同的需求,使用基准表在第三步校验时一定会报错。

      规则配置

      规则配置因选择不同的规则模板而变化。

      数据表指标实时元表规则配置详情请参见质量规则参数配置规则配置说明

      特殊配置如下:

      • 校验表数据过滤:默认关闭,开启后可配置校验表的过滤条件或分区过滤或普通数据过滤,过滤条件将会直接追加至校验SQL中;如校验表有分区过滤需求,建议在调度配置中配置分区表达式,配置后会以校验分区为最小查看粒度查看质量报告。

      • 当规则模板选择一致性/两表字段统计值一致性比较一致性/跨源两表字段统计值一致性比较时,可选择是否开启对比表数据过滤,开启后可配置对比表的过滤条件或分区过滤或普通数据过滤,过滤条件将会直接追加至校验SQL中。

      校验配置

      • 数据质量规则校验后,结果会和异常校验的配置进行对比,符合条件则校验结果为不通过;同时触发告警等后续流程。

      • 异常校验可用指标由模板和配置内容决定,支持多种条件的and/or条件,实际配置中建议小于3条。

        详情请参见质量规则参数配置校验配置说明

      异常归档

      默认开启后可以归档异常数据到文件或归档表中,质量校验后可以下载、分析归档的异常数据。

      说明

      仅支持Dataphin数据表和全域数据表配置异常归档。

      • 归档模式支持仅归档异常字段归档完整记录

        • 仅归档异常字段:只去重归档当前监控字段,适用于通过单个字段就可以完整确定异常数据的情况。

        • 归档完整记录:归档异常数据所在的整条记录,适用于必须通过完整记录才能定位异常数据的情况。

          说明

          因归档完整记录会极大增加归档数据量,建议正常情况下都使用仅归档异常字段。

      • 异常数据存储支持默认文件服务器异常数据归档表。若未创见异常归档表,可点击管理异常归档表创建,详情请参见添加异常归档表

        • 默认文件服务器:存储在默认的文件服务器位置,后续只能进行数据的下载。一个规则单次最多归档100条,建议只归档异常字段或小数据量时使用。

        • 异常数据归档表:可以将异常数据存储到表中,后续可以直接读表进行数据分析或数据下载。自定义存储的大小和生命周期可以由您进行统一管理,有更高的灵活性,一个规则单次最多归档10000条。

          说明
          • 在归档表中针对本次校验的异常数据进行下载,不超过1000条。

          • 异常归档表需要满足特定的格式要求,否则可能会报错。

      计分方式

      支持质量校验状态和数据合格比例两种计分方式。

      说明

      仅支持Dataphin数据表和全域数据表配置计分方式。

      • 质量校验状态:按照当前规则最近一次执行成功的校验记录校验状态进行打分,校验通过100分,校验不通过0分。

      • 合格数据比例:将当前规则最近一次执行成功的校验记录中的正常数据的比例(即正常率)作为分数,如数据格式有效性是80%,那么质量分就是80分。

      不同的规则模板支持的计分方式不同,仅支持质量校验状态计分方式说明如下:

      • 唯一性规则大类的字段分组个数校验、字段重复值个数校验。

      • 一致性规则大类的单表字段统计值一致性比较、跨源两表字段统计值一致性比较。

      • 稳定性规则大类。

      • 自定义SQL规则大类的以自定义统计指标校验创建的规则模板。

      质量分权重

      质量规则的质量分权重,用于统计监控对象的质量分。支持选择1-10之间的整数。

      说明

      仅支持Dataphin数据表和全域数据表配置质量分权重。

    4. 单击下一步

    5. 对象详情配置

      • 字段级详情配置

        您可查看所选数据表的字段校验信息,也可以修改规则名称、质量分权重(仅Dataphin数据表和全域数据表支持),同时,您可以单击操作列下的image图标编辑该字段的规则配置和校验配置,也可以删除该字段或指标。

        image.png

      • 表级详情配置

        您可查看所选数据表校验信息,也可以修改规则名称、质量分权重(仅Dataphin数据表和全域数据表支持),同时,您可以单击操作列下的image图标编辑该表的规则配置和校验配置,也可以删除该数据表。

        image.png

    6. 单击添加规则,完成配置。

批量添加质量规则列表

说明

建议在质量规则试跑成功后,并在生效状态开启的状态下保存。

批量质量规则创建完成后,您可在规则配置列表进行编辑、试跑、配置调度、删除等操作。

image.png

区域

描述

筛选及搜索区

您可根据对象或规则名称进行快捷搜索。也可根据试跑失败未试跑未生效未配置调度进行筛选质量规则。

列表区

为您展示规则配置列表的对象名称规则名称所属数据表/所属数据板块试跑状态生效状态质量负责人调度类型信息。

生效状态:建议生效规则前先进行试跑,针对试跑成功的规则开启生效状态。避免错误的规则阻塞线上任务。

  • 开启生效状态后,所选规则会按照配置的调度自动执行。

  • 停用生效状态后,所选规则不会自动执行,但可以手动执行。

操作区

您可进行查看编辑调度配置试跑转交质量负责人删除操作。

  • 查看:可查看规则配置详情。

  • 编辑:编辑规则后,需重新试跑。

  • 调度配置:支持在弹框中筛选调度类型或用调度名称快捷搜索调度。也支持编辑调度。详情请参见新建调度

    说明
    • 批量配置调度时,需要确保所选资源表的校验范围表达式一致,如果配置的分区和表实际分区不一致,可能会报错。

    • 批量配置调度时,非分区表不会保存校验范围表达式,只会保存调度配置。

  • 试跑:支持选择已有调度自定义校验范围试跑规则,试跑后,可单击image图标查看试跑日志

    说明

    批量试跑时,建议选择相同分区的表。分区信息会直接下放执行,如果分区不一致可能会报错。

  • 质量负责人管理:选择需要转交的质量负责人,单击确定

    image

  • 删除:删除此质量规则对象将删除对象下的所有质量规则,删除后不可撤销,请谨慎操作。

批量操作区

  • 试跑:支持选择已有调度自定义校验范围批量试跑规则,试跑后,可单击image图标查看试跑日志

    说明

    批量试跑时,建议选择相同分区的表。分区信息会直接下放执行,如果分区不一致可能会报错。

  • 调度配置:支持在对话框中筛选调度类型或用调度名称快捷搜索调度。也支持编辑调度,为质量规则批量配置调度。详情请参见新建调度

    说明
    • 批量配置调度时,需要确保所选资源表的校验范围表达式一致,如果配置的校验范围和表实际校验范围不一致,可能会报错。

    • 批量配置调度时,非分区表不会保存校验范围表达式,只会保存调度配置。

  • 开启:支持批量开启质量规则的对象的生效状态,开启生效状态后,所选规则会按照配置的调度自动执行。

  • 关闭:支持批量关闭质量规则的对象的生效状态,停用生效状态后,所选规则不会自动执行,但可以手动执行。

  • 批量管理质量负责人:选择需要转交的质量负责人,单击确定

    image

  • 删除:支持批量删除质量规则的对象,删除后不可撤销,请谨慎操作。

后续步骤

在质量规则列表中,配置调度后,单击完成,即可在Dataphin数据表规则列表页面查看。详情请参见查看监控对象列表

  • 本页导读 (0)
文档反馈