创建全域数据表规则
为了提升数据表质量监控的便捷性,Dataphin支持创建校验数据表的质量规则。数据表参与质量规则校验时,如果触发了质量弱监控规则,系统会给您发送告警消息,便于您及时发现并处理异常;如果触发了质量强监控规则,系统会自动中断该表所在的任务,避免脏数据流入下游,同时系统会给您发送告警消息,便于您及时发现并处理异常。本文为您介绍如何单独配置全域数据表的质量规则和批量配置全域数据表的质量规则。
前提条件
已发布数据表至生产环境。如何发布数据表至生产环境,请参见管理发布任务。
权限说明
超级管理员、质量管理员和资源负责人可以添加监控对象及引入全域数据表资源。
超级管理员、质量管理员和质量负责人可以批量配置质量规则及新建、删除异常归档表;支持为质量规则配置打分权重。
质量负责人、普通用户需具备全域数据表所在数据源的同步读权限,如果没有权限,则需要申请数据源权限,详情请参见申请数据源权限。
超级管理员、质量管理员可查看所有全域数据表的质量规则。
项目成员可查看自己所加入的项目的全域数据表的质量规则。
普通成员(个人)可查看数据表的质量负责人是自己的全域数据表的质量规则。
特殊的,若质量规则中开启了权限限制,则优先遵循质量规则的权限限制执行。
从不同视角查看质量规则
Dataphin支持从全局、项目、个人三个视角查看全域数据表的质量规则。
全局:超级管理员、质量管理员可从全局查看所有全域数据表质量规则。
项目:超级管理员、质量管理员支持切换所有项目查看全域数据表的质量规则,项目成员仅可选择已加入的项目并查看该项目下的全域数据表的质量规则。
个人:超级管理员、质量管理员支持切换至任一成员查看全域数据表质量规则,普通成员仅可查看质量负责人是自己的全域数据表质量规则并且不支持切换。
当从项目视角查看质量规则时,筛选项不展示所属项目。
当从个人视角查看质量规则时,筛选项不展示质量负责人。
步骤一:选择数据表
在Dataphin首页,单击顶部菜单栏的资产。
在资产页面,按照下图操作指引,进入添加监控对象对话框。
在添加监控对象对话框中,配置参数。
参数
描述
数据源类型
支持MaxCompute、Hive、Mysql、Oracle、Microsoft SQL Server、PostgreSQL、SAP HANA、AnalyticDB for PostgreSQL、ClickHouse、IBM DB2、DM、Hologres。
数据源
选择该数据源类型下的数据源。
数据表
根据所选的数据源类型、数据源来筛选数据表。
质量负责人
该数据表质量监控和整改的直接负责人。
质量分权重
监控对象的质量分权重,用于统计项目、数据源、个人等视角的质量分。
单击配置质量规则,进入质量规则配置页面。
步骤二:新建质量规则
单击新建质量规则。
在新建质量规则对话框,配置参数后单击确定。
参数
描述
规则名称
自定义质量规则的名称。
规则强度
选择质量规则的强弱:
如果您选择了强规则,则质量规则校验的结果为异常时报警,同时在有下游任务的情况下(代码检查调度、任务触发调度)会阻塞下游任务,防止污染数据扩散;如果没有下游任务(如周期质量调度),则仅告警。
如果您选择了弱规则,则质量规则校验的结果为异常时报警但不阻塞下游任务节点。
描述
自定义质量规则描述。不超过128字符。
配置方式
模板创建:使用通用的系统模板和自定义的业务模板,快速创建质量规则。
系统模板:模板内置参数可配置,适合通用的规则创建。
自定义模板:模板预置参数,无需配置,一般用于含业务逻辑的规则创建。
自定义SQL:可通过SQL灵活自定义质量监控规则,适用于灵活复杂场景。
规则模板
下拉可选择规则模板,完整性、唯一性、及时性、有效性、一致性、稳定性、自定义SQL。
完整性:包括字段空值校验和字段空字符串校验。
唯一性:包含字段唯一性校验、字段分组个数校验和字段重复值个数校验。
及时性:包含时间函数比较、单表时间字段比较和两表时间字段比较。
有效性:包含字段格式校验、字段长度校验、字段值域校验、码表参照对比和数据标准码表参照对比(需开通数据标准模块)。
一致性:包含单表字段值一致性比较、单表字段统计值一致性比较、单字段业务逻辑一致性比较、两表字段值一致性比较、两表字段统计值一致性比较、两表字段业务逻辑一致性比较和跨源两表字段统计值一致性比较。
稳定性:包含表稳定性校验、表波动性校验、字段稳定性校验和字段波动性校验。
自定义SQL:包含自定义统计指标校验和自定义数据详情校验。
详情请参见模板类型说明。
规则类型
规则类型包含系统类型和自定义类型。
系统类型和模板有关,是模板最基础的属性。
支持用户自定义模板的类型,作为说明和筛选功能。
规则配置
规则配置因选择不同的规则模板而变化。详情请参见规则配置说明。
特殊说明:
校验表数据过滤:默认关闭,开启后可配置校验表的过滤条件或分区过滤或普通数据过滤,过滤条件将会直接追加至校验SQL中;如校验表有分区过滤需求,建议在调度配置中配置分区表达式,配置后会以校验分区为最小查看粒度查看质量报告。
当规则模板选择一致性/两表字段统计值一致性比较、一致性/跨源两表字段统计值一致性比较时,可选择是否开启对比表数据过滤,开启后可配置对比表的过滤条件或分区过滤或普通数据过滤,过滤条件将会直接追加至校验SQL中。
规则校验
数据质量规则校验后,结果会和异常校验的配置进行对比,符合条件则校验结果为不通过;同时触发告警等后续流程。
异常校验可用指标由模板和配置内容决定,支持多种条件的and / or条件,实际配置中建议小于3条。
详情请参见校验配置说明。
异常归档
默认关,开启后可以归档异常数据到文件或归档表中,质量校验后可以下载、分析归档的异常数据。
归档模式支持仅归档异常字段和归档完整记录。
仅归档异常字段:只去重归档当前监控字段,适用于通过单字段就可以完整确定异常数据的情况。
归档完整记录:归档异常数据所在的整条记录,适用于必须通过完整记录才能定位异常数据的情况。 注意:因归档完整记录会极大增加归档数据量,建议正常情况下都使用仅归档异常字段。
异常数据存储支持默认文件服务器和异常数据归档表。若未创建异常归档表,可点击管理异常归档表创建,详情请参见步骤五:添加异常归档表。
默认文件服务器:存储在默认的文件服务器位置,后续只能进行数据的下载。一个规则单次最多归档100条,建议只归档异常字段或小数据量时使用。
异常数据归档表:可以将异常数据存储到表中,后续可以直接读表进行数据分析或数据下载。自定义存储的大小和生命周期可以由您进行统一管理,有更高的灵活性,一个规则单次最多归档10000条。
注意:异常归档表需要满足特定的格式要求,否则可能会报错,详情配置请参见步骤五:添加异常归档表。
说明在归档表中针对本次校验的异常数据进行下载不超过1000条。
计分方式
支持质量校验状态和数据合格比例两种计分方式。
质量校验状态:按照当前规则最近一次执行成功的校验记录校验状态进行打分,校验通过100分,校验不通过0分。
合格数据比例:将当前规则最近一次执行成功的校验记录中的正常数据的比例(即正常率)作为分数,如数据格式有效性是80%,那么质量分就是80分。
不同的规则模板支持的计分方式不同,仅支持质量校验状态计分方式说明如下:
唯一性规则大类的字段分组个数校验、字段重复值个数校验。
一致性规则大类的单表字段统计值一致性比较、跨源两表字段统计值一致性比较。
稳定性规则大类。
自定义SQL规则大类的自定义统计指标校验。
质量分权重
质量规则的质量分权重,用于统计监控对象的质量分。支持选择1-10之间的整数。
模板类型说明
模板类型
模板详情分类
模板说明
完整性
字段空值校验
用于对单字段是否是空值进行校验。
字段空字符串校验
用于对单字段是否是空字符串进行校验。
唯一性
字段唯一性校验
用于对单字段唯一值/非唯一值进行校验。
字段分组个数校验
用于对单字段数据去重值校验。
字段重复值个数校验
用于对单字段重复且多余的数据进行校验。
及时性
时间函数比较
用于对单字段和业务日期之间的及时性的对比。
单表时间字段比较
用于对同一表的两列的时间差进行比较。
两表时间字段比较
用于对不同表的两列的时间差进行比较。
有效性
字段格式校验
用于识别表达式或者正则表达式对单字段的格式进行校验。
字段长度校验
用于对单字段的长度进行校验。
字段值域校验
用于对单字段的取值范围进行校验。
码表参照对比
支持对单字段是否在码表中进行判断。
数据标准码表参照对比
支持对单字段是否在码表中进行判断,支持直接选择数据标准模块维护的码表。
一致性
单表字段值一致性比较
用于对同一表两个字段原值进行数据的对比。
单表字段统计值一致性比较
用于对同一表两个字段进行统计数据的对比,如求和值、最大值等。
单字段业务逻辑一致性比较
用于对同一表多个字段的复杂业务逻辑是否正确进行校验。
两表字段值一致性比较
用于对不同表两个字段原值进行数据的对比。
两表字段统计值一致性比较
用于对不同表两个字段进行统计数据的对比,如求和值、最大值等。
两表字段业务逻辑一致性比较
用于对不同表多个字段的复杂业务逻辑是否争取进行校验,如销售总金额=单价*销售量。
跨源两表字段统计值一致性比较
用于对跨数据源两个表两个字段的复杂业务逻辑是否正确进行校验。
稳定性
表稳定性校验
用于对表/分区的大小、行数的稳定性进行校验,统计结果和固定值进行比较。
表波动性校验
用于对表/分区的大小、行数的波动性进行校验,统计结果和历史进行比较。
字段稳定性校验
用于对字段的平均值、最大值等稳定性进行校验,统计结果和固定值进行比较。
字段波动性校验
用于字段的平均值、最大值等波动性进行校验,统计结果和历史进行比较。
规则配置说明
模板类型
描述
完整性/唯一性
完整性-字段空值校验/字段空字符串校验
唯一性-字段唯一性校验/字段分组个数校验/字段重复值个数校验:
校验字段:选择物理表中的需要校验的字段。
校验表数据过滤:填写数据过滤内容,例如:
id=12 --单表 T1.id=12 and T2.name = "张三" --双表
及时性
时间函数比较:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
比较项:比较时间的表达式,内置
${column}、${bizdate}
参数。基于比较字段定义表达式,
${column}
为比较项内置参数,例如:${column}、substr(${column})
。日期函数比较选择
${bizdate}
,则会被识别为业务日期。
时间容差:设置校验项减去比较项的值。取单位项小数点前的值,不做四舍五入。例如发货日期和下单日期需要在同一天,则校验项- 比较项目可设置为小于1天。
单表字段比较:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
比较字段:选择物理表中的需要比较的字段。
时间容差:设置校验项减去比较项的值。取单位项小数点前的值,不做四舍五入。例如发货日期和下单日期需要在同一天,则校验项- 比较项目可设置为小于1天。
两表时间字段比较:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
选择比较表:选择物理表中的需要比较的表及该物理表的需要比较的字段。
关联表达式:内置数据表参数T1、T2,T1为检测表,T2为比较表,例如:T1.id = T2.id。
时间容差:设置校验项减去比较项的值。取单位项小数点前的值,不做四舍五入。例如发货日期和下单日期需要在同一天,则校验项- 比较项目可设置为小于1天。
有效性
字段格式校验:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
内容识别形式:可选择识别表达式、正则表达式、字符串匹配(%)、开头是、中间是、结尾是,表达式用于匹配符合规则的数据。
内容识别形式-识别表达式:输入SQL表达式函数。例如
${column1}>0
,其中${column}
为内置参数。内容识别形式-正则表达式:可以输入正则表达式,同时可以选择内置正则表达式,包括手机号、固定电话、身份证号、邮箱、银行卡号等。
内容识别形式-字符串匹配(%):标准的like表达式,使用%代表通配符,如匹配a开头的数据,输入a%即可。
内容识别形式-开头是:输入待匹配字符串,会自动按照模式在尾部拼接%,例如:a%。
内容识别形式-中间是:输入待匹配字符串,会自动按照模式在尾部拼接%,例如:%a%。
内容识别形式-结尾是:输入待匹配字符串,会自动按照模式在尾部拼接%,例如:%a。
字段长度校验:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
字段长度:用于字段长度有效性验证,支持枚举或区间设置。选择枚举值的校验示例:对比3、6、9,生成的校验SQL为
x in (3, 6, 9)
。
字段值域校验:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
值域类型:根据实际业务选择。
文本:用于对文本有效性进行验证,需要确保校验字段为文本类型。需设置值域范围,支持枚举或区间设置。选择枚举值的校验示例:对比张三和李四,生成的校验SQL为
x in ("张三", "李四")
。数字:用于对数值有效性进行验证,需要确保校验字段为数值类型。需设置值域范围,支持枚举或区间设置。选择枚举值的校验示例:对比3、6、9,生成的校验SQL为
x in (3, 6, 9)
。日期:用于对日期有效性进行验证,需要确保校验字段为日期类型(date)。需设置日期格式,支持年、年月、年月日、年月日-时分秒设置。例如:年:2021~2022,年月:2022-01~2022-02。
时间戳:用于对时间戳有效性进行验证,需要确保校验字段为时间戳类型(timestamp)。
自定义:用于对多种格式进行校验,同时支持使用函数,填写的内容会直接下发到数据源执行。
需设置值域范围,支持枚举或区间设置。
选择枚举值的校验示例:对比3、6、9,生成的校验SQL为
x in (3, 6, 9)
。选择区间设置的校验示例:值域范围为最小值y1~最大值y2;假设被对比字段是x,则最后校验SQL为
x >= y1 and x <= y2
。说明自定义时的字段格式,例如10和"10"在不同数据源执行可能不同。
需要保证所使用函数在校验质量的数据源有效。
码表参照对比:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
数据源类型:选择数据源类型。
数据源:选择对应数据源类型的数据源。
说明为了性能考虑,跨数据源最多只会读取1000条码表数据进行对比,建议码表和被检验表在同一数据源。
跨数据源对比字段会被自动转换为string类型, 部分特殊字段类型可能会出现异常情况。建议码表中的字段类型和校验字段类型都是string或其他相同类型。
码表:选择目标码表。
码表名称:输入码表名称,作为质量规则配置时的提示信息。
码表参照字段:选择码表中对应的参照字段。
说明码表参照表是判断某个字段是否在码表中,需要选择一个对比的字段。例如判断用户详情表里的用户ID是否都是注册用户。
码表过滤条件:设置分区表的过滤条件,对数据进行过滤。
数据标准码表参照对比(需开通数据标准模块):
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
码表:选择在数据标准下已发布状态的码表,如需创建码表,请参见新建和管理标准代码(码表)。
码表参照:根据此处选择的参照值和字段值进行比较,可选代码值、代码名称、代码英文名。
一致性
单表字段值一致性比较:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
比较字段:选择物理表中的需要比较的字段。
单表字段统计值一致性比较:
单字段业务逻辑一致性比较:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
识别表达式:输入SQL表达式函数。例如
${column1}>0
,其中${column}
为内置参数。说明识别表达式支持使用函数,但需要注意执行时的数据库需要支持该函数。
支持多个字段之间的业务逻辑的校验。如总销售额=单价*销售数量,校验总销售额是否出错可以用
${total_sales}=${unit_price}*${sales_volume}
。
两表字段值一致性比较:
校验字段、选择比较表、关联表达式、校验表数据过滤:详情请参见规则配置说明的及时性大类的两表时间字段。
两表字段统计值一致性比较:
跨源两表字段统计值一致性比较:
统计方式:可统计字段计数、字段最大值、字符重复率等,详情请参见模板类型说明。
校验字段:选择物理表中的需要校验的字段。
数据源类型:选择该物理表的数据源类型。
数据源:选择该物理表所属的数据源
选择比较表:选择物理表中需比较的表及该物理表需比较的字段。
校验表数据过滤:填写数据过滤内容,例如:
id=12 --单表 T1.id=12 and T2.name = "张三" --双表
对比表数据过滤:填写数据过滤内容,例如:
city='beijing'
两表字段业务逻辑一致性比较:
校验字段、校验表数据过滤:详情请参见规则配置说明的完整性/唯一性大类的描述。
业务逻辑:输入SQL表达式函数。例如
${column1}>0
,其中${column}
为内置参数。说明支持多个字段之间的业务逻辑的校验。如总销售额=单价*销售数量,校验总销售额是否出错可以用
${T1.total_sales}=${T2.unit_price}*${T2.sales_volume}
。
稳定性
自定义SQL
自定义统计指标校验:
自定义SQL:支持select查询语句,查询对象须包含主表。例如:
select sum(sale) from tableA where ds=${bizdate};
自定义数据详情校验:
总行数SQL:填写总条数的统计SQL。例如:
select count(*) from tableA where ds=${bizdate};
异常行数SQL:填写异常行数的统计SQL。例如
select count(*) from tableA where ds=${bizdate} and age<0;
校验配置说明
模板类型
配置项
描述
完整性
异常行数/正常行数/异常率/正常率
正常行数:唯一值行数。
正常率:唯一值行数/总行数。
异常行数:总行数-正常行数,即
count
大于2的sum
。异常率:1-正常率或异常行数/总行数。
说明唯一值定义:仅出现一次的记录。即分组后count=1的组。
唯一性
异常行数/正常行数/异常率/正常率
正常行数:唯一值行数。
正常率:唯一值行数/总行数。
异常行数:总行数-正常行数,即
count
大于2的sum
。异常率:1-正常率或异常行数/总行数。
说明唯一值定义:仅出现一次的记录。即分组后count=1的组。
统计值
指去重值定义,
count distinct
后的数据。统计值(重复行数/重复率)
重复行数用于检查数据中重复了的行数的多少,仅计算多出来的行数,算法为总行数-去重行数。
重复率=重复行数/总行数。
如果需要重复数据的全部行数/重复率计算,可以使用唯一值校验模板的异常行数/异常率指标。
及时性、有效性
异常行数/正常行数/异常率/正常率
正常行数:唯一值行数。
正常率:唯一值行数/总行数。
异常行数:总行数-正常行数,即
count
大于2的sum
。异常率:1-正常率或异常行数/总行数。
说明唯一值定义:仅出现一次的记录。即分组后count=1的组。
一致性
统计差值、统计差异率(%)
统计差值:校验字段-对比字段。
统计差异率:校验字段/对比字段。
稳定性
统计值(1天波动率、7天波动率、30天波动率)
选择的对比周期需要和调度配置的数据分区一致,不一致时可能会报错。
预览SQL
关键信息没有填写完整,预览SQL不可用。
左边为上次保存配置SQL预览,若未配置,则为空;右边为当前配置SQL预览。
规则配置列表
您可以在规则配置列表页面查看已经配置的数据表规则信息,并进行查看、编辑、试跑、运行、删除等操作。
区域 | 描述 |
①筛选及搜索区 | 支持按照对象或者规则名称进行快捷搜索。 支持按照规则类型、规则模板、规则强度、试跑状态、生效状态进行筛选。 |
②列表区 | 为您展示规则配置列表的对象名称、规则名称、试跑状态、生效状态、规则类型、规则模板、规则强度、调度类型信息。 生效状态:建议生效规则前先进行试跑,针对试跑成功的规则开启生效状态。避免错误的规则阻塞线上任务。
|
③操作区 | 您可进行查看、克隆、编辑、试跑、运行、调度配置、删除操作。
|
④批量操作区 |
|
步骤三:新建调度
规则配置调度时,可以基于该表格当前已有的调度快速进行配置(每个表上限20个调度规则)。
同一个规则最多能配置10个调度。
调度配置完全一致时,支持自动去重。
单击新建调度。
在新建调度对话框,配置参数后单击确定。
参数
描述
调度名称
自定义调度名称。
调度类型
支持定时调度和固定任务触发调度。
定时调度:按照设置的时间,周期性的对数据进行质量检测,适合数据文档产出的场景。
调度周期:包含日、周、月、小时、分钟五种周期类型。
固定任务触发调度:仅在指定的任务完成后,执行配置的质量规则。支持指定SQL、离线管道、Python、Shell、Datax、Spark_jar和Hive_MR的任务类型。
说明适用于表的修改任务固定的情况。
固定任务触发只能选择生产环境任务,若规则强度配置了强规则,调度任务校验失败,可能会影响线上任务,请根据业务需求谨慎操作。
触发任务:下拉选择触发任务的任务表。支持选择所有任务均完成触发、任一任务完成即触发和任一任务执行前触发。
调度条件
默认关闭,开启后,在质量规则正式调度前,会先判断是否满足调度条件。满足条件才会正式调度,不满足条件则忽略本次调度。
业务日期/执行日期:若调度类型选择定时调度(定时调度不支持执行日期)、代码检查触发调度、固定任务触发调度,支持配置日期,可选择普通日历或自定义日历,如何自定义日历,请参见新建公共日历。
若选择普通日历,则条件可选月份、星期、日期。例如下图:
若选择自定义日历,则条件可选日期类型、标签。例如下图:
实例类型:若调度类型选择代码检查触发调度、固定任务触发调度,支持配置实例类型,可选择周期实例、补数据实例、手动实例。例如下图:
说明至少配置一条规则。如需添加规则,请单击+添加规则按钮。
最多配置10个调度条件。
调度条件之间的关系可配置为且、或。
调度配置列表
调度创建完成后,您可在调度配置列表进行查看、编辑、克隆、删除等操作
区域 | 描述 |
①筛选及搜索区 | 支持按照调度名称进行快捷搜索。 支持按照定时调度、固定任务触发调度进行筛选。 |
②列表区 | 为您展示规则配置列表的调度名称、调度类型、最后更新人、最后更新时间信息。 |
③操作区 |
|
步骤四:告警配置
单击告警设置后,再单击编辑,在告警配置页面,选择告警接收人及告警方式,可选择不超过5个告警接收人及不超过3个告警值班表。
如果质量规则校验的结果为异常,则告警信息会发送至告警接收人。
单击确定。
步骤五:添加异常归档表
异常归档表实现质量规则校验异常的记录归档。
单击异常归档,再单击添加异常归档表按钮。
在添加异常归档表对话框,配置参数。
添加方式支持选择已有表和新建表两种方式。增加了特殊的质量校验字段,异常数据归档不会写入原来的数据表。
选择已有表:支持选择同项目或同数据源表,归档表包含必须的质量监控表的所有字段及校验字段(如Dataphin质量规则ID、质量规则名称、质量校验时间、异常归档模式、校验日期等字段)。
新建表:可自定义表名,需在归档表所属项目或所属板块内,不超过128字符,默认填入当前表名_exception_data。添加成功后会在同库或同数据源新建表。
归档表包含必须的质量监控表的所有字段及校验字段(如Dataphin质量规则ID、质量规则名称、质量校验时间、异常归档模式、校验日期等字段)。
单击确定,完成异常归档表添加。
查看异常归档表列表
添加成功后,默认第一个为归档表。点击异常归档表的名称,可以查看字段、数据类型、字段描述信息。您可以对归档表执行设为默认、删除操作。
设为默认:若把该表设为默认,则异常数据只能归档到默认的归档表。
删除:仅删除和异常归档表的引用关系,不会删除异常归档表本身,删除后如果需要可以重新添加。
步骤六:查看质量报告
单击质量报告,查看当前质量规则的规则校验概览和规则校验明细。
您可根据异常结果、分区时间、规则或对象的名称关键字快捷筛选校验明细。
单击
图标,查看质量规则的规则校验详情。
单击
图标,查看质量规则的执行日志。
步骤七:设置质量规则权限管理
单击权限管理,指定成员查看校验记录详情、质量规则详情、质量报告。
可查看详情:可选择所有成员或仅超级管理员、质量管理员和质量负责人。
单击确定。
批量添加全域数据表质量规则
批量添加全域数据表质量规则支持表级和字段级配置,便于提高规则配置效率。
按照下图操作指引,进入添加质量规则页面。
在添加质量规则页面,配置参数。
基本信息配置
字段级基本信息配置
表级基本信息配置
参数
描述
规则名称、规则强度、描述、配置方式、规则模板、规则类型
详情请参见步骤二:新建质量规则。
配置方式不支持自定义SQL。
对象筛选
根据所选数据源类型选择数据源,单击筛选按钮筛选数据表。
对象选择
勾选您所需配置的数据表及该数据表的字段。
当规则模板选择稳定性-表稳定性校验和稳定性-表波动性校验时,支持表级配置。对象选择只需勾选数据表。
单击下一步。
单击取消后,此次配置的质量规则均不添加。
规则配置
参数
描述
基准表
对象选择所勾选的数据表。基于该表的字段进行规则详情配置。例如:A表有id、name两个字段,B表有id、age两个字段,C表有name、age两个字段,以A表为基准表,id为校验字段,则B表校验通过,C表校验不通过。
说明当规则模板选择复杂(即校验时除了校验字段外还需其他字段)配置模板时,需配置基准表。
当需批量配置对比字段,不同的表,字段不同,则基准表可提供快捷选择。
基准表适用场景:若有相似或者相同需求的情况下,推荐使用批量配置;若是完全不同的需求,使用基准表在第三步校验时一定会报错。
规则配置、规则校验、异常归档、计分方式、质量分权重
详情请参见步骤二:新建质量规则。
单击下一步。
对象详情配置
字段级详情配置
您可查看所选数据表的字段校验信息,也可以修改规则名称、质量分权重,同时,您可以单击操作列下的
图标编辑该字段的规则配置和校验配置,也可以删除该字段或删除整个数据表。
表级详情配置
您可查看所选数据表校验信息,也可以修改规则名称、质量分权重,同时,您可以单击操作列下的
图标编辑该表的规则配置和校验配置,也可以删除该数据表。
完成配置后,单击添加规则。
在质量规则列表,配置调度后,单击完成,即可在全域数据表规则列表页面查看。
批量添加全域数据表规则列表
建议在质量规则试跑成功后,并在生效状态开启的状态下保存。
批量质量规则创建完成后,您可在规则配置列表进行查看、编辑、试跑、运行、删除等操作。
区域 | 描述 |
①筛选及搜索区 | 支持按照对象或者规则名称进行快捷搜索。 支持按照试跑失败、未试跑、未生效、未配置调度进行筛选。 |
②列表区 | 为您展示规则配置列表的对象名称、规则名称、所属数据表/所属数据板块、试跑状态、生效状态、资源负责人、质量负责人、调度方式等信息。 生效状态:建议生效规则前先进行试跑,针对试跑成功的规则开启生效状态。避免错误的规则阻塞线上任务。
|
③操作区 | 您可进行查看、编辑、调度配置、试跑、转交质量负责人、删除操作。
|
④批量操作区 |
|
全域数据表规则列表
您可以在质量规则列表页面查看已经配置的数据表规则信息,并进行查看、运行、质量负责人管理、删除等操作。
序号 | 描述 |
①筛选及搜索区 | 您可以通过筛选条件过滤需要查询的质量规则。 您可以根据我负责的、表名称/数据源名称、校验开关、最近一次校验状态、质量负责人、数据源类型、数据源名称、资源负责人条件进行精确筛选。 |
②列表区 | 为您展示表名称、校验开关、生效/总质量规则数、最近一次校验状态、质量负责人、数据源类型、数据源名称数据表质量规则详细信息,同时您可以在操作列对规则进行查看质量规则详情、运行、查看质量报告、质量负责人管理、删除的操作。
|
③批量操作区 | 您可以批量选择任务,进行运行、质量负责人管理、开启、关闭、删除操作。
|