本文为您介绍数据质量的校检逻辑及离线数据的内置模板规则。

基本概念

  • 样本:当天采集的具体的样本的值。例如对于SQL任务表行数,1天波动检测,则样本是当天分区的表行数。
  • 基准值:历史样本的对比值。
    • 如果规则是SQL任务表行数,1天波动检测,则基准值是前一天分区产生的表行数。
    • 如果规则是SQL任务表行数,7天平均值波动检测,则基准值是前7天的表行数据的平均值。

校检逻辑

数据质量支持与固定值比较、波动值比较和动态阈值三种校检方式。
校检方式 校检逻辑
与固定值比较
  1. 根据校验的表达式进行计算,返回布尔值。支持以下比较操作符:

    ><>=<=!=

  2. 如果上述计算结果为true,返回正常,否则返回红色报警。
波动值比较
  • 如果校验值的绝对值小于或等于橙色阈值,则返回正常
  • 如果校验值的绝对值不满足第1种情况,且小于或等于红色阈值,则返回橙色报警
  • 如果校验值不满足第2种情况,则返回红色报警
动态阈值 您无需手动设置阈值,系统会自动根据算法模型实时检测指标的正确性。如果超出合理的波动范围,便进行报警。
注意 您需要购买DataWorks企业版及以上版本,才可以使用动态阈值。

离线规则内置模板说明

离线数据内置模板
模板名称 描述
字段平均值,相比1天、1周和1个月前的波动率。 取该字段的平均值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈值进行比较,只要有一个不符合规则即可触发报警。
字段汇总值,相比1天、1周和1个月前的波动率。 取该字段的sum值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈值进行比较,只要有一个不符合规则即可触发报警。
字段最小值,相比1天、1周和1个月前的波动率。 取该字段的最小值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈值进行比较,只要有一个不符合规则即可触发报警。
字段最大值,相比1天、1周和1个月前的波动率。 取该字段的最大值,同1天、7天和1个月的周期进行比较,计算波动率。再与阈值进行比较,只要有一个不符合规则即可触发报警。
字段唯一值的个数。 去重后的count数与一个期望数字进行比较,即固定值校检。
字段唯一值的个数,相比1天、1周和1个月前的波动率。 去重后的count数与1天、1周和1个月前进行比较,即固定值校检。
表行数,相比1天、1周和1个月前的波动率。 同1天、1周和1个月前采集的表行数进行比较,对比波动率。
字段空值个数。 取该字段的空值数与固定值进行比较。
字段空值个数/总行数。 空值的个数与行总数的比率与一个固定值进行比较。
说明 该固定值是一个小数。
字段重复值个数/总行数。 重复值个数与总行数的比率与一个固定值进行比较。
字段重复值个数。 总行数减去重后的个数,即字段重复值的个数。重复值个数与固定值进行比较。
字段唯一值个数/总行数。 唯一值个数与总行数的比率与一个固定值进行比较。
字段平均值,相比1天前的波动率。 取该字段的平均值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段汇总值,相比1天前的波动率。 取该字段的sum值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段最小值,相比1天前的波动率。 取该字段的最小值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段最大值,相比1天前的波动率。 取该字段的最大值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段汇总值,相比上一周期的波动率。 取该字段的sum值,与上一周期进行比较,计算出波动率后,再与阈值进行比较,只要有一个不符合规则即可触发报警。
字段最小值,相比上一周期的波动率。 取该字段的最小值,与上一周期进行比较,计算出波动率后,再与阈值进行比较,只要有一个不符合规则即可触发报警。
字段最大值,相比上一周期的波动率。 取该字段的最大值,与上一周期进行比较,计算出波动率后,再与阈值进行比较,只要有一个不符合规则即可触发报警。
字段分组,各离散点count值。 字段分组,各离散点count值。
字段分组,各离散点count值,相比1天、1周和1个月前的波动率。 字段分组,各离散点count值,相比1天、1周和1个月前的波动率。
字段分组,离散点总数。 字段分组,离散点总数。
字段分组,离散点总数,相比1天前的波动率。 字段分组,离散点总数,相比1天前的波动率。
相比上一周期,表大小不变(字节)。 相比上一周期,表大小不变(字节)。
相比上一周期,表大小变化(字节)。 相比上一周期,表大小变化(字节)。
相比上一周期,表行数变化。 相比上一周期,表行数变化。
相比上一周期,表行数不变。 相比上一周期,表行数不变。
表大小,相比上一周期的差值(字节)。 表大小,相比上一周期的差值(字节)。
表行数,相比上一周期的差值。 基准值为上一周期产生的分区的表行数,比较当天采集的表行数,对比差值。
表行数。 表行数。
表的空间大小(字节)。 表的空间大小(字节)。
表行数,相比1天前的差值。 基准值为昨天产生的分区的表行数,比较当天采集的表行数,对比差值。
表的空间大小,相比1天前的差值(字节)。 表的空间大小,相比1天前的差值(字节)。
表的空间大小,相比1天前的波动率。 该模板用于监控表大小的波动情况,样本对比值是与昨天的额度样本进行比较。

例如,填写橙色阈值为5%,红色阈值为10%。当波动率大于5%且小于等于10%时,会进行橙色报警。当波动率大于10%时,会进行红色报警。

表的空间大小,相比1周前的波动率。 该模板用于监控表大小的波动情况,样本对比值是与1周前的额度样本进行比较。

例如,填写橙色阈值为5%,红色阈值为10%。当波动率大于5%且小于等于10%时,会进行橙色报警。当波动率大于10%时,会进行红色报警。

表的空间大小,相比1个月前的波动率。 该模板用于监控表大小的波动情况,样本对比值是与1个月前的额度样本进行比较。

例如,填写橙色阈值为5%,红色阈值为10%。当波动率大于5%且小于等于10%时,会进行橙色报警。当波动率大于10%时,会进行红色报警。

表行数,相比最近7天平均值的波动率。 基准值是最近7天的表行数的平均值。
表行数,相比最近30天平均值的波动率。 基准值是最近30天的表行数的平均值。
表行数,相比1天前的波动率。 基准值为昨天产生的分区的表行数,比较当天采集的表行数,对比波动率。
表行数,相比1周前的波动率。 基准值为1周前产生的分区的表行数,比较当天采集的表行数,对比波动率。
表行数,相比1个月前的波动率。 基准值为1个月前产生的分区的表行数,比较当天采集的表行数,对比波动率。
表行数,相比1天、1周、1个月前和本月1号的波动率。 与1天、1周、1个月前和本月1号采集的表行数进行比较,对比波动率。
表行数,相比上一周期的波动率。 基准值为上周产生的分区的表行数,比较当天采集的表行数,对比波动率。