批量创建质量规则

批量创建质量规则可帮助您为监控对象配置统一的质量规则,并设置异常告警信息,实时监控对象的动态。本文为您介绍如何批量配置质量规则。

前提条件

已将数据表或指标发布至生产环境,发布详情请参见管理发布任务

权限说明

  • 超级管理员、质量管理员支持批量配置质量规则、新建及删除异常归档表、配置打分权重。

  • 质量负责人支持在自己所负责的监控对象下配置质量规则、新建及删除异常归档表、配置打分权重。

  • 质量负责人、普通用户需具有数据表、数据源的读取权限,如需申请,请参见申请、续期和交还表权限申请数据源权限

说明

仅Dataphin表和全域数据表支持配置异常归档表和打分权重。

校验规则说明

数据表参与质量规则校验时,如果触发了质量弱监控规则,系统会给您发送告警消息,便于您及时发现并处理异常;如果触发了质量强监控规则,系统会自动中断该表所在的任务,避免脏数据流入下游,同时系统会给您发送告警消息,便于您及时发现并处理异常。

批量添加质量规则

批量添加质量规则可满足不同对象需要配置同一个质量规则的场景,提高规则配置效率,支持表级或字段级配置。不同监控对象的配置方式除圈选对象方式不同外,其他配置基本一致,下图以Dataphin表为例。

  1. 在Dataphin首页,单击顶部菜单栏的治理 > 数据质量

  2. 单击左侧导航栏的质量规则,在质量规则页面,单击右上角的添加质量规则或单击image图标,然后选择按监控对象添加

  3. 添加质量规则页面,配置参数。

    1. 基本信息配置

      字段级基本信息配置

      image

      表级基本信息配置

      image

      参数

      描述

      规则名称

      自定义质量规则的名称,不超过256个字符。选择监控对象后,每个对象可单独调整。

      规则强度

      支持弱规则强规则

      • 弱规则:如果您选择了弱规则,则质量规则校验的结果为异常时报警但不阻塞下游任务节点。

      • 强规则:如果您选择了强规则,则质量规则校验的结果为异常时报警,同时在有下游任务的情况下(代码检查调度、任务触发调度)会阻塞下游任务,防止污染数据扩散;如果没有下游任务(如周期质量调度),则仅告警。

      描述

      自定义质量规则描述。不超过128字符。

      配置方式

      支持模板创建和自定义SQL。

      • 模板创建:使用通用的系统模板和自定义的业务模板,快速创建质量规则。

        • 系统模板:模板内置参数可配置,适合通用的规则创建。

        • 自定义模板:模板预置参数,无需配置,一般用于含有业务逻辑的规则创建。

      • 自定义SQL:可通过SQL灵活自定义质量监控规则,适用于灵活复杂场景。仅自定义SQL模板支持批量配置质量规则。

      说明

      数据源、实时元表不支持配置方式。

      规则模板

      不同监控对象所支持的规则模板不同。更多模板详情请参见模板类型说明

      • Dataphin表全域数据表支持的规则模板包括完整性唯一性及时性有效性一致性稳定性自定义SQL

        • 完整性:包括字段空值校验字段空字符串校验

        • 唯一性:包含字段唯一性校验字段分组个数校验字段重复值个数校验

        • 及时性:包含时间函数比较单表时间字段比较两表时间字段比较

        • 有效性:包含字段格式校验字段长度校验字段值域校验码表参照对比数据标准码表参照对比(需开通数据标准模块)。

        • 一致性:包含单表字段值一致性比较单表字段统计值一致性比较单字段业务逻辑一致性比较两表字段值一致性比较两表字段统计值一致性比较两表字段业务逻辑一致性比较跨源两表字段统计值一致性比较

        • 稳定性:包含表稳定性校验表波动性校验字段稳定性校验字段波动性校验

        • 自定义SQL:包含自定义SQL规则模板创建的信息。

      • 指标支持的规则模板为唯一性稳定性

        • 唯一性:包含字段分组个数校验字段重复值个数校验

        • 稳定性:包含字段稳定性校验字段波动性校验

      • 数据源支持的规则模板为稳定性

        • 连通性监测:配置到Dataphin上的数据源因网络变更、用户名、密码等原因导致连接不上,进而导致任务报错,对连通性监测的变化进行加监控告警。

        • 表结构异动:上游表的结构变化,如更名、删除、增减字段,进而导致下游报错,对表结构的变化进行监控告警。

      • 实时元表支持的规则模板为一致性稳定性

        • 一致性:包含实时离线对比实时对链路对比

        • 稳定性:包含实时统计值检测

      规则类型

      规则类型和模板有关,是模板最基础的属性,可用于说明和筛选功能。

      对象筛选

      您可根据不同条件筛选监控对象。

      • Dataphin表:根据表类型、环境、所属项目(表类型为物理表)/所属数据板块(表类型为逻辑表)、资源负责人筛选数据表。

      • 全域数据表:根据数据源类型、数据源筛选数据表。

      • 指标:根据数据板块、汇总逻辑表筛选指标。

      • 数据源:根据数据源类型筛选数据源。

      • 实时元表:根据环境、所属项目筛选实时元表。

      对象选择

      • 字段对象:如果您需要配置字段粒度的监控规则,可以根据数据表名、表负责人、质量负责人先选择需要监控的数据表,再选择具体需要监控的字段。

      • 表对象:当数据表的规则模板选择稳定性-表稳定性校验稳定性-表波动性校验或数据源的规则模板选择稳定性-表结构异动监测时,可配置全表粒度的监控规则,您可以根据数据表名、表负责人、质量负责人选择需要配置的数据表。

    2. 单击下一步

      单击取消后,此次配置的质量规则均不会被添加。

    3. 规则配置(数据源无需配置,可直接查看下一个步骤

      参数

      描述

      基准表

      对象选择所勾选的数据表。基于该表的字段进行规则详情配置。例如:A表有id、name两个字段,B表有id、age两个字段,C表有name、age两个字段,以A表为基准表,id为校验字段,则B表校验通过,C表校验不通过。

      说明
      • 当监控对象为数据表和实时元表且规则模板选择复杂(即校验时除了校验字段外还需其他字段)配置模板时,需配置基准表。

      • 当需要批量配置对比字段,不同的表,字段不同,则基准表可提供快捷选择。

      • 基准表适用场景:若有相似或者相同需求的情况下,推荐使用批量配置;若是完全不同的需求,使用基准表在第三步校验时一定会报错。

      模板配置

      当选择质量规则模板时,为您展示模板的配置信息。如需修改配置信息,详情请参见质量规则模板

      规则配置

      规则配置因选择不同的规则模板而变化。

      特殊配置如下:

      • 校验表数据过滤:默认关闭,开启后可配置校验表的过滤条件或分区过滤或普通数据过滤,过滤条件将会直接追加至校验SQL中;如校验表有分区过滤需求,建议在调度配置中配置分区表达式,配置后会以校验分区为最小查看粒度查看质量报告。

      • 当规则模板选择一致性/两表字段统计值一致性比较一致性/跨源两表字段统计值一致性比较时,可以选择是否开启对比表数据过滤,开启后可以配置对比表的过滤条件或分区过滤或普通数据过滤,过滤条件将会直接追加至校验SQL中。

      校验配置

      • 数据质量规则校验后,结果会和异常校验的配置进行对比,符合条件则校验结果为不通过;同时触发告警等后续流程。

      • 异常校验可用指标由模板和配置内容决定,支持多种条件的and/or条件,实际配置中建议小于3条。

        详情请参见校验配置说明

      归档配置

      默认关闭开启后可以归档异常数据到文件或归档表中,质量校验后可以下载、分析归档的异常数据。

      说明

      仅支持Dataphin表和全域数据表配置异常归档。

      • 归档模式支持仅归档异常字段归档完整记录

        • 仅归档异常字段:只去重归档当前监控字段,适用于通过单个字段就可以完整确定异常数据的情况。

        • 归档完整记录:归档异常数据所在的整条记录,适用于必须通过完整记录才能定位异常数据的情况。

          说明

          因归档完整记录会极大增加归档数据量,建议正常情况下都使用仅归档异常字段。

      • 归档位置支持默认文件服务器异常数据归档表。若未创建异常归档表,可点击管理异常归档表创建,详情请参见添加异常归档表

        • 默认文件服务器:指Dataphin部署时配置的系统文件服务器,后续您可以在校验记录页面下载每次校验识别到的异常数据。使用默认文件服务器时,每次校验执行最多归档100条异常数据,适用于小数据量校验的场景。

        • 异常数据归档表:如果您希望存储更多异常数据或将不同校验记录的异常数据放在一起便于后续的对比分析,系统将自动选中当前监控对象下生效中的异常归档表,建议提前配置好归档表,您也可以自行指定归档表。使用归档表单次校验最多记录10000条数据,除了可以直接在校验记录页面快捷下载单次校验的异常数据,您也可以直接访问归档表、自定义表生命周期,有更高的灵活性。

          说明
          • 在归档表中针对本次校验的异常数据进行下载,下载数量不超过1000条,如果有更多的数据需要查看,建议归档到异常归档表后直接在表中查看。

          • 异常归档表需要满足特定的格式要求,否则可能在写入数据时报错,影响使用,详情请参见添加异常归档表

      业务属性配置

      业务属性填写规范取决于质量规则属性的配置。例如:归口管理部门所对应的字段取值类型为枚举值(多选),可选枚举值范围为大数据部、业务部、技术部。因此,创建质量规则时,该属性值为下拉多选框,可选项为枚举值(多选),可选枚举值范围为大数据部、业务部、技术部。

      规则负责人所对应的字段取值类型为自定义输入,属性字段长度为256。因此,在创建质量规则时,该属性值可以输入不超过256个字符。

      若属性字段的填写方式为范围区间,则配置方式如下:

      范围区间:常用于取值范围是连续数值或日期的情况。可选择>>=<<=四种符号。更多属性配置,请参见新建及管理质量规则属性

      质量分配置

      • 计分方式:支持质量校验状态和数据合格比例两种计分方式。

        说明

        仅支持Dataphin表和全域数据表配置计分方式。不同的规则模板支持的计分方式不同,仅支持质量校验状态计分方式说明如下:

        • 唯一性规则的字段分组个数校验、字段重复值个数校验。

        • 一致性规则的单表字段统计值一致性比较、跨源两表字段统计值一致性比较。

        • 稳定性规则。

        • 自定义SQL规则的以自定义统计指标校验创建的规则模板。

        • 质量校验状态:按照当前规则最近一次执行成功的校验记录的校验状态进行打分,校验通过100分,校验不通过0分。

        • 合格数据比例:将当前规则最近一次执行成功的校验记录中的正常数据的比例(即正常率)作为分数,如数据格式有效性是80%,那么质量分就是80分。

      • 质量分权重质量规则的质量分权重,用于统计监控对象的质量分。支持选择1-10之间的整数。

        说明

        仅支持Dataphin表和全域数据表配置质量分权重。

    4. 单击下一步

    5. 对象详情配置

      • 字段级详情配置

        您可以查看所选数据表的字段校验信息,也可以修改规则名称、质量负责人、质量分权重(仅Dataphin表和全域数据表支持),同时,您可以对校验对象执行编辑质量规则、删除校验对象、批量修改质量负责人、批量编辑质量分权重操作。

        image

        • 修改质量负责人:支持快捷修改已选监控对象的质量负责人,您也可以批量管理质量负责人,支持批量追加修改

          说明

          如果当前校验对象已被添加为监控对象,批量添加质量规则成功后,此处配置的质量负责人将覆盖更新该监控对象已有的质量负责人。

          • 追加:若当前质量管理人列表中的质量负责人已有20位,则不可添加。

          • 修改:可将当前质量管理人列表中的质量负责人全部修改成本次指定的负责人,选择不超过20位。

        • 修改质量分权重:可快捷配置质量规则的质量分权重,用于统计监控对象的质量分。支持配置1~10之间的整数。

        • 编辑:支持修改规则的规则配置、校验配置、业务属性配置、质量分配置信息。

        • 删除:支持删除校验对象。

      • 表级详情配置

        您可以查看所选数据表的校验信息,也可以修改规则名称、质量负责人、质量分权重(仅Dataphin表和全域数据表支持),同时,您可以对校验对象执行编辑质量规则、删除校验对象、批量修改质量负责人、批量编辑质量分权重操作。表级配置操作与字段级一致,详情请参见字段级详情配置

        image

    6. 单击添加规则,完成配置。

批量添加质量规则列表

说明

建议在质量规则试跑成功后,在生效状态开启的状态下进行保存。

批量质量规则创建完成后,您可在规则配置列表进行编辑、试跑、配置调度、删除等操作。

image

区域

描述

筛选及搜索区

您可根据对象或者规则名称进行快捷搜索。也可根据试跑失败未试跑未生效未配置调度进行筛选质量规则。

列表区

为您展示规则配置列表的对象名称规则名称所属数据表/所属数据板块试跑状态生效状态质量负责人调度类型信息。

生效状态:建议在生效规则前先进行试跑,针对试跑成功的规则开启生效状态,以避免错误的规则阻塞线上任务。

  • 开启生效状态后,所选规则会按照配置的调度自动执行。

  • 停用生效状态后,所选规则不会自动执行,但可以手动执行。

操作区

您可进行查看编辑调度配置试跑转交质量负责人删除操作。

  • 查看:可查看规则配置详情。

  • 编辑:编辑规则后,需重新试跑。

  • 调度配置:支持在弹框中筛选调度类型或用调度名称快捷搜索调度。也支持编辑调度。详情请参见新建调度

    说明
    • 批量配置调度时,需要确保所选资源表的校验范围表达式一致,如果配置的分区和表实际分区不一致,可能会报错。

    • 批量配置调度时,非分区表不会保存校验范围表达式,只会保存调度配置。

  • 试跑:支持选择已有调度自定义校验范围试跑规则,试跑后,可单击image图标查看试跑日志

    说明

    批量试跑时,建议选择相同分区的表。分区信息会直接下放执行,如果分区不一致可能会报错。

  • 质量负责人管理:选择需要转交的质量负责人,单击确定

  • 删除:删除此质量规则对象将删除对象下的所有质量规则,删除后不可撤销,请谨慎操作。

批量操作区

  • 试跑:支持选择已有调度自定义校验范围批量试跑规则,试跑后,可单击image图标查看试跑日志

    说明

    批量试跑时,建议选择相同分区的表。分区信息会直接下放执行,如果分区不一致可能会报错。

  • 调度配置:支持在对话框中筛选调度类型或用调度名称快捷搜索调度。也支持编辑调度,为质量规则批量配置调度。详情请参见新建调度

    说明
    • 批量配置调度时,需要确保所选资源表的校验范围表达式一致,如果配置的校验范围和表实际校验范围不一致,可能会报错。

    • 批量配置调度时,非分区表不会保存校验范围表达式,只会保存调度配置。

  • 开启:支持批量开启质量规则的对象的生效状态,开启生效状态后,所选规则会按照配置的调度自动执行。

  • 关闭:支持批量关闭质量规则的对象的生效状态,停用生效状态后,所选规则不会自动执行,但可以手动执行。

  • 批量管理质量负责人:支持批量追加修改已选监控对象的质量负责人。

    • 追加:若当前质量管理人列表中的质量负责人已有20位,则不可添加。

    • 修改:可将当前质量管理人列表中的质量负责人全部修改成本次指定的负责人,选择不超过20位。

  • 删除:支持批量删除质量规则的对象,删除后不可撤销,请谨慎操作。

后续步骤

在质量规则列表,配置调度后,单击完成,即可在Dataphin表规则列表页面查看。详情请参见管理监控对象列表