数据质量支持您保留数据质量监控过程中从数据表中发现的非预期数据,帮助您快速排查、定位问题,提升数据质量。本文为您介绍如何管理数据质量监控过程中从数据表中发现的非预期数据。
背景信息
问题数据表
数据质量支持在部分规则校验不通过的情况下,系统自动创建问题数据表存储质量规则校验过程中发现的问题数据。
问题数据表名生成规则:
{监控数据表原表名}_dirtydata_dw_system_dqc
。问题数据表所属空间:根据当前表所处环境决定。如原始表为
dev_project.table1
,则问题数据表将同样保存在dev_project
下。问题数据表责任人:数据表原表的责任人。
问题数据保留时长:问题数据默认保留15天,即该问题数据表生命周期为15天,若满足MaxCompute表的生命周期回收策略,问题数据将会删除。关于MaxCompute表生命周期定义详情请参见生命周期。
问题数据表分区结构:
分区级别
分区字段名
描述
一级分区
dqc_task_run_dt
当前问题数据的采集时间,即数据质量规则运行时间(格式为yyyymmdd)。
二级分区
dqc_task_id
当前问题数据采集对应的DQC规则实例ID。
说明DQC规则执行将产生DQC实例。
支持保留问题数据的规则列表与问题数据口径
目前支持保留问题数据的监控规则,及各规则问题数据的定义,详情请参见:附录:支持保留问题数据的规则列表与问题数据口径。
注意事项
目前仅MaxCompute表支持配置保留问题数据功能。
目前仅部分数据质量监控规则支持配置保留问题数据功能,支持保存问题数据的规则,详情请参见:附录:支持保留问题数据的规则列表与问题数据口径。
问题数据采集最终将基于您的规则生成数据采集SQL,并在MaxCompute引擎侧执行,此过程将产生MaxCompute计算引擎费用。
问题数据采集结果将存储与MaxCompute临时表中,此过程将产生MaxCompute计算引擎存储费用。
保留问题数据配置入口
您可在按表配置数据质量监控规则,添加模板规则时,在部分字段级规则配置入口,开启问题数据保留配置。开启问题数据保留配置后,当该数据质量规则校验不通过时,系统会将异常数据保留至自动生成的问题数据表中。按表配置数据质量监控规则详情请参见:配置规则:按表(单表)。
目前仅部分规则,在规则校验不通过时支持保留问题数据,支持的规则列表,详情请参见:附录:支持保留问题数据的规则列表与问题数据口径。
查看问题数据
您可以进入任务查询页面,找到目标表,单击操作列的详情,在任务详情页面单击问题数据查看本次问题数据产生的质量监控规则、问题数据表详情、问题数据预览。
若预览问题数据无权限或通过命令查询问题数据表无权限,请参考MaxCompute数据安全访问控制说明,前往安全中心申请该表查询权限,操作详情请参见:MaxCompute数据访问权限控制。
查看问题数据采集日志
附录:支持保留问题数据的规则列表与问题数据口径
校验类型 | 校验规则 | 规则描述 | 问题数据口径 |
唯一值 | 唯一值个数,固定值。 | 去重后的count数与一个期望数字进行比较,即固定值校检。 | 唯一值个数校验不通过时:
|
唯一值个数/总行数。 | 唯一值个数与总行数的比率与一个固定值进行比较。 | ||
空值 | 空值个数,固定值。 | 取该字段的空值数与固定值进行比较。 说明 是否为空值,是通过转换为SQL的is null进行判断。 | 系统生成的问题数据表会保留字段值为空的问题数据,即所有空值均为问题数据。 |
空值个数/总行数,固定值。 | 空值的个数与行总数的比率与一个固定值进行比较。 说明 该固定值是一个小数。 | ||
重复值 | 重复值个数/总行数,固定值。 | 重复值个数与总行数的比率与一个固定值进行比较。 | 系统生成的问题数据表会保留该字段的重复数据,即所有重复值均为问题数据。 |
重复值个数,固定值。 | 总行数减去重后的个数,即字段重复值的个数。重复值个数与固定值进行比较。 |