本文为您介绍质量规则的参数配置信息。
数据表参数配置
数据表规则配置
模板类型 | 描述 |
完整性/唯一性 |
|
及时性 |
|
有效性 |
|
一致性 |
|
稳定性 | |
自定义SQL |
|
数据表校验配置说明
模板类型 | 配置项 | 描述 |
完整性 | 异常行数/正常行数/异常率/正常率 |
|
唯一性 | 异常行数/正常行数/异常率/正常率 |
|
统计值 | 指去重值定义, | |
统计值(重复行数/重复率) |
| |
及时性、有效性 | 异常行数/正常行数/异常率/正常率 |
|
一致性 | 统计差值、统计差异率(%) | 统计差值:校验字段-对比字段。 统计差异率:校验字段/对比字段。 |
稳定性 | 统计值(1天波动率、7天波动率、30天波动率) | 与1天、7天、30天前采集的表行数进行比较,对比波动率,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。 |
自定义SQL | 异常行数/正常行数/异常率/正常率 |
|
统计值(1天波动率、7天波动率、30天波动率) | 与1天、7天、30天前采集的表行数进行比较,对比波动率,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。 |
指标参数配置
指标规则配置
模板类型 | 描述 |
唯一性 | 字段分组个数校验/字段重复值个数校验:需配置数据过滤。 数据过滤:默认关闭,开启后可配置校验表的过滤条件或分区过滤或普通数据过滤,过滤条件将会直接追加至校验SQL中;如校验表有分区过滤需求,建议在调度配置中配置分区表达式,配置后会以校验分区为最小查看粒度查看质量报告。填写数据过滤内容,例如:
|
稳定性 | 字段稳定性校验/字段波动性校验:
|
指标校验配置
模板类型 | 配置项 | 描述 |
唯一性 | 字段分组个数 | 取该字段的分组后的个数与设定的固定值进行比较。 |
统计值(重复行数/重复率) |
| |
稳定性 | 统计值 | 指去重值定义, |
统计值(1天波动率、7天波动率、30天波动率) | 与1天、7天、30天前采集的表行数进行比较,对比波动率,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。 | |
均值波动检测(7天波动、30天波动) | 基准值是最近7天、30天的表行数的平均值,对比最近7天、30天平均值的波动率。 | |
统计值(相比当月1号天波动率、相比上月波动率、相比上年波动率) | 与本月1号、上月、上年采集的表行数进行比较,对比波动率,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。 |
实时元表参数配置
离线链路对比参数配置
实时数据与离线数据在使用相同统计路逻辑时,实时离线数据核对质量规则可以检测数据之间的差异。如果差异较大,可能存在数据质量的问题。
参数 | 描述 |
校验字段 | 选择需要校验的字段。 |
指标算子 | 选择数据的算法。 |
对象形式 | 选择单值数据和多值数据。 |
时间限定条件 | 选择时间限定的字段。 |
开启条件限定 | 选择开启或关闭条件限定。 |
离线数据 | 下拉选择离线数据表。 |
离线取数 | 默认关闭,开启后通过SQL语句配置离线数据表的取数。 |
时区设置 | 下拉选择时区。 |
多链路对比参数配置
在业务有强保障场景中,可以通过实时双链路或实时三链路质量规则监测数据。如果有异常,运维人员能够及时切换或备份数据。实时多链路对比质量规则支持监控数据滞留、统计偏差等问题。
参数 | 描述 |
校验字段 | 选择需要校验的字段。 |
指标算子 | 选择数据的算法。 |
对象形式 | 选择单值数据和多值数据。 |
时间限定条件 | 选择时间限定的字段。 |
开启条件限定 | 选择开启或关闭条件限定。 |
对比链路数 | 选择质量规则的对比链路数。系统支持选择实时三链路对比和实时双链路对比。 |
对比链路1 | 选择实时元表作为对比链路数据:
|
时区设置 | 下拉选择时区。 |