批量创建质量规则可帮助您为监控对象配置统一的质量规则,并设置异常告警信息,实时监控对象的动态。本文为您介绍如何批量配置质量规则。
前提条件
已将数据表或指标发布至生产环境,发布详情请参见管理发布任务。
权限说明
超级管理员、质量管理员支持批量配置质量规则、新建及删除异常归档表、配置打分权重。
质量负责人支持在自己所负责的监控对象下配置质量规则、新建及删除异常归档表、配置打分权重。
质量负责人、普通用户需具有数据表、数据源的读取权限,如需申请,请参见申请、续期和交还表权限、申请数据源权限。
仅Dataphin数据表和全域数据表支持配置异常归档表和打分权重。
校验规则说明
数据表参与质量规则校验时,如果触发了质量弱监控规则,系统会给您发送告警消息,便于您及时发现并处理异常;如果触发了质量强监控规则,系统会自动中断该表所在的任务,避免脏数据流入下游,同时系统会给您发送告警消息,便于您及时发现并处理异常。
批量添加质量规则
批量添加质量规则可满足不同对象需配置同一个质量规则的场景,提高规则配置效率,支持表级或字段级配置。不同监控对象的配置方式除圈选对象方式不同外,其他基本一致,下图以Dataphin数据表为例。
在Dataphin首页,单击顶部菜单栏的资产。
按照下图操作指引,进入添加质量规则页面。
在添加质量规则页面,配置参数。
基本信息配置
字段级基本信息配置
表级基本信息配置
参数
描述
规则名称
自定义质量规则的名称。选择监控对象后,每个对象可单独调整。
规则强度
支持弱规则和强规则。
如果您选择了弱规则,则质量规则校验的结果为异常时报警但不阻塞下游任务节点。
如果您选择了强规则,则质量规则校验的结果为异常时报警,同时在有下游任务的情况下(代码检查调度、任务触发调度)会阻塞下游任务,防止污染数据扩散;如果没有下游任务(如周期质量调度),则仅告警。
描述
自定义质量规则描述。不超过128个字符。
配置方式
支持模板创建和自定义SQL。
模板创建:使用通用的系统模板和自定义的业务模板,快速创建质量规则。
系统模板:模板内置参数可配置,适合通用的规则创建。
自定义模板:模板预置参数,无需配置,一般用于含有业务逻辑的规则创建。
自定义SQL:可通过SQL灵活自定义质量监控规则,适用于灵活复杂场景。仅自定义SQL模板支持批量配置质量规则。
说明数据源、实时元表不支持配置方式。
规则模板
不同监控对象所支持的规则模板不同。
Dataphin数据表、全域数据表支持的规则模板为完整性、唯一性、及时性、有效性、一致性、稳定性、自定义SQL。更多模板详情请参见模板类型说明。
完整性:包括字段空值校验和字段空字符串校验。
唯一性:包含字段唯一性校验、字段分组个数校验和字段重复值个数校验。
及时性:包含时间函数比较、单表时间字段比较和两表时间字段比较。
有效性:包含字段格式校验、字段长度校验、字段值域校验、码表参照对比和数据标准码表参照对比(需开通数据标准模块)。
一致性:包含单表字段值一致性比较、单表字段统计值一致性比较、单字段业务逻辑一致性比较、两表字段值一致性比较、两表字段统计值一致性比较、两表字段业务逻辑一致性比较和跨源两表字段统计值一致性比较。
稳定性:包含表稳定性校验、表波动性校验、字段稳定性校验和字段波动性校验。
自定义SQL:包含自定义SQL规则模板创建的信息。
指标支持的规则模板为唯一性、稳定性。更多模板详情请参见模板类型说明。
唯一性:包含字段分组个数校验和字段重复值个数校验。
稳定性:包含字段稳定性校验和字段波动性校验。
数据源支持的规则模板为稳定性。
连通性监测:配置到Dataphin上的数据源因网络变更、用户名、密码等原因导致连接不上,进而导致任务报错,对连通性监测的变化进行加监控告警。
表结构异动:上游表的结构变化,如更名、删除、增减字段,进而导致下游报错,对表结构的变化进行加监控告警。
实时元表支持的规则模板为一致性、稳定性。更多模板详情请参见模板类型说明。
一致性:包含实时离线对比和实时对链路对比。
稳定性:包含实时统计值检测。
规则类型
规则类型和模板有关,是模板最基础的属性,可作为说明和筛选功能。
对象筛选
您可根据不同条件筛选监控对象。
Dataphin数据表:根据表类型、环境、所属项目(表类型为物理表)/所属板块(表类型为逻辑表)筛选数据表。
全域数据表:根据数据源类型、数据源筛选数据表。
指标:根据数据板块、汇总逻辑表筛选指标。
数据源:根据数据源类型筛选数据源。
实时元表:根据环境、所属项目筛选数据表。
对象选择
勾选您所需配置的数据表及该数据表的字段。
数据表:当规则模板选择稳定性-表稳定性校验和稳定性-表波动性校验时,支持表级配置。对象选择只需勾选数据表。
数据源:当规则模板选择稳定性-表结构异动监测,支持表级配置。对象选择需勾选数据表。
单击下一步。
单击取消后,此次配置的质量规则均不会被添加。
规则配置(数据源无需配置,可直接查看下一个步骤)
参数
描述
基准表
对象选择所勾选的数据表。基于该表的字段进行规则详情配置。例如:A表有id、name两个字段,B表有id、age两个字段,C表有name、age两个字段,以A表为基准表,id为校验字段,则B表校验通过,C表校验不通过。
说明当监控对象为数据表和实时元表且规则模板选择复杂(即校验时除了校验字段外还需其他字段)配置模板时,需配置基准表。
当需批量配置对比字段,不同的表,字段不同,则基准表可提供快捷选择。
基准表适用场景:若有相似或者相同需求的情况下,推荐使用批量配置;若是完全不同的需求,使用基准表在第三步校验时一定会报错。
规则配置
规则配置因选择不同的规则模板而变化。
数据表、指标、实时元表规则配置详情请参见质量规则参数配置的规则配置说明。
特殊配置如下:
校验表数据过滤:默认关闭,开启后可配置校验表的过滤条件或分区过滤或普通数据过滤,过滤条件将会直接追加至校验SQL中;如校验表有分区过滤需求,建议在调度配置中配置分区表达式,配置后会以校验分区为最小查看粒度查看质量报告。
当规则模板选择一致性/两表字段统计值一致性比较、一致性/跨源两表字段统计值一致性比较时,可选择是否开启对比表数据过滤,开启后可配置对比表的过滤条件或分区过滤或普通数据过滤,过滤条件将会直接追加至校验SQL中。
校验配置
数据质量规则校验后,结果会和异常校验的配置进行对比,符合条件则校验结果为不通过;同时触发告警等后续流程。
异常校验可用指标由模板和配置内容决定,支持多种条件的and/or条件,实际配置中建议小于3条。
详情请参见质量规则参数配置的校验配置说明。
异常归档
默认关,开启后可以归档异常数据到文件或归档表中,质量校验后可以下载、分析归档的异常数据。
说明仅支持Dataphin数据表和全域数据表配置异常归档。
归档模式支持仅归档异常字段和归档完整记录。
仅归档异常字段:只去重归档当前监控字段,适用于通过单个字段就可以完整确定异常数据的情况。
归档完整记录:归档异常数据所在的整条记录,适用于必须通过完整记录才能定位异常数据的情况。
说明因归档完整记录会极大增加归档数据量,建议正常情况下都使用仅归档异常字段。
异常数据存储支持默认文件服务器和异常数据归档表。若未创见异常归档表,可点击管理异常归档表创建,详情请参见添加异常归档表。
默认文件服务器:存储在默认的文件服务器位置,后续只能进行数据的下载。一个规则单次最多归档100条,建议只归档异常字段或小数据量时使用。
异常数据归档表:可以将异常数据存储到表中,后续可以直接读表进行数据分析或数据下载。自定义存储的大小和生命周期可以由您进行统一管理,有更高的灵活性,一个规则单次最多归档10000条。
说明在归档表中针对本次校验的异常数据进行下载,不超过1000条。
异常归档表需要满足特定的格式要求,否则可能会报错。
计分方式
支持质量校验状态和数据合格比例两种计分方式。
说明仅支持Dataphin数据表和全域数据表配置计分方式。
质量校验状态:按照当前规则最近一次执行成功的校验记录校验状态进行打分,校验通过100分,校验不通过0分。
合格数据比例:将当前规则最近一次执行成功的校验记录中的正常数据的比例(即正常率)作为分数,如数据格式有效性是80%,那么质量分就是80分。
不同的规则模板支持的计分方式不同,仅支持质量校验状态计分方式说明如下:
唯一性规则大类的字段分组个数校验、字段重复值个数校验。
一致性规则大类的单表字段统计值一致性比较、跨源两表字段统计值一致性比较。
稳定性规则大类。
自定义SQL规则大类的以自定义统计指标校验创建的规则模板。
质量分权重
质量规则的质量分权重,用于统计监控对象的质量分。支持选择1-10之间的整数。
说明仅支持Dataphin数据表和全域数据表配置质量分权重。
单击下一步。
对象详情配置
字段级详情配置
您可查看所选数据表的字段校验信息,也可以修改规则名称、质量分权重(仅Dataphin数据表和全域数据表支持),同时,您可以单击操作列下的图标编辑该字段的规则配置和校验配置,也可以删除该字段或指标。
表级详情配置
您可查看所选数据表校验信息,也可以修改规则名称、质量分权重(仅Dataphin数据表和全域数据表支持),同时,您可以单击操作列下的图标编辑该表的规则配置和校验配置,也可以删除该数据表。
单击添加规则,完成配置。
批量添加质量规则列表
建议在质量规则试跑成功后,并在生效状态开启的状态下保存。
批量质量规则创建完成后,您可在规则配置列表进行编辑、试跑、配置调度、删除等操作。
区域 | 描述 |
①筛选及搜索区 | 您可根据对象或规则名称进行快捷搜索。也可根据试跑失败、未试跑、未生效、未配置调度进行筛选质量规则。 |
②列表区 | 为您展示规则配置列表的对象名称、规则名称、所属数据表/所属数据板块、试跑状态、生效状态、质量负责人、调度类型信息。 生效状态:建议生效规则前先进行试跑,针对试跑成功的规则开启生效状态。避免错误的规则阻塞线上任务。
|
③操作区 | 您可进行查看、编辑、调度配置、试跑、转交质量负责人、删除操作。
|
④批量操作区 |
|
后续步骤
在质量规则列表中,配置调度后,单击完成,即可在Dataphin数据表规则列表页面查看。详情请参见查看监控对象列表。
- 本页导读 (0)