数据质量支持您保留数据质量监控过程中从数据表中发现的非预期数据,帮助您快速排查、定位问题,提升数据质量。本文为您介绍如何管理数据质量监控过程中从数据表中发现的非预期数据。
背景信息
问题数据表
数据质量支持在部分规则校验不通过的情况下,系统自动创建问题数据表存储质量规则校验过程中发现的问题数据。
问题数据表名生成规则:
{监控数据表原表名}_dirtydata_dw_system_dqc
。问题数据表所属空间:根据当前表所处环境决定。如原始表为
dev_project.table1
,则问题数据表将同样保存在dev_project
下。问题数据表责任人:数据表原表的责任人。
问题数据保留时长:问题数据默认保留15天,即该问题数据表生命周期为15天,若满足MaxCompute表的生命周期回收策略,问题数据将会删除。关于MaxCompute表生命周期定义详情请参见生命周期。
问题数据表分区结构:
分区级别
分区字段名
描述
一级分区
dqc_task_run_dt
当前问题数据的采集时间,即数据质量规则运行时间(格式为yyyymmdd)。
二级分区
dqc_task_id
当前问题数据采集对应的DQC规则实例ID。
说明DQC规则执行将产生DQC实例。
支持保留问题数据的规则列表与问题数据口径
目前支持保留问题数据的监控规则,及各规则问题数据的定义,详情请参见:附录:支持保留问题数据的规则列表与问题数据口径。
注意事项
目前仅MaxCompute表支持配置保留问题数据功能。
目前仅部分数据质量监控规则支持配置保留问题数据功能,支持保存问题数据的规则,详情请参见:附录:支持保留问题数据的规则列表与问题数据口径。
问题数据采集最终将基于您的规则生成数据采集SQL,并在MaxCompute引擎侧执行,此过程将产生MaxCompute计算引擎费用。
问题数据采集结果将存储于MaxCompute临时表中,此过程将产生MaxCompute计算引擎存储费用。
保留问题数据配置入口
您可在按表配置数据质量监控规则,添加模板规则时,在部分字段级规则配置入口,开启问题数据保留配置。开启问题数据保留配置后,当该数据质量规则校验不通过时,系统会将异常数据保留至自动生成的问题数据表中。按表配置数据质量监控规则详情请参见:配置规则:按表(单表)。
目前仅部分规则,在规则校验不通过时支持保留问题数据,支持的规则列表,详情请参见:附录:支持保留问题数据的规则列表与问题数据口径。
查看问题数据
您可以进入
页面,找到质量结果校验异常或失败的运行记录,单击操作列的详情,在质量监控运行详情页面中,单击问题数据处理页签。若预览问题数据无权限或通过命令查询问题数据表无权限,请参考MaxCompute数据安全访问控制说明,前往安全中心申请该表查询权限,操作详情请参见:MaxCompute数据访问权限控制。
查看问题数据采集日志
您可以通过以下入口查看问题数据采集日志,包括采集问题数据的SQL代码及执行过程。当问题数据采集过程中出现错误时,帮助您快速排查、定位问题。
方式一:通过数据质量模块查看。
您可在查看质量监控执行详情。
页面,通过查看目标表数据质量监控规则的原始日志,查看问题数据采集过程。详情请参见:方式二:通过调度任务列表查看。
当数据质量监控规则关联调度节点后,您可进入调度节点的运行详情页面,在智能诊断。
面板,单击目标规则操作列的查看详情,查看问题数据采集过程。详情请参见:
附录:支持保留问题数据的规则列表与问题数据口径
系统模板
校验类型
校验规则
规则描述
问题数据口径
唯一值
唯一值个数,固定值。
去重后的count数与一个期望数字进行比较,即固定值校检。
唯一值个数校验不通过时:
当所有数据都唯一,系统会生成问题数据表,但表中不会存放问题数据。
若存在数据不唯一,系统生成的问题数据表会保留该字段的重复数据,即重复的数据就是问题数据。
唯一值个数/总行数。
唯一值个数与总行数的比率与一个固定值进行比较。
空值
空值个数,固定值。
取该字段的空值数与固定值进行比较。
说明是否为空值,是通过转换为SQL的is null进行判断。
系统生成的问题数据表会保留字段值为空的问题数据,即所有空值均为问题数据。
空值个数/总行数,固定值。
空值的个数与行总数的比率与一个固定值进行比较。
说明该固定值是一个小数。
重复值
重复值个数/总行数,固定值。
重复值个数与总行数的比率与一个固定值进行比较。
系统生成的问题数据表会保留该字段的重复数据,即所有重复值均为问题数据。
重复值个数,固定值。
总行数减去重后的个数,即字段重复值的个数。重复值个数与固定值进行比较。
自定义SQL
开启保留问题数据后,将在自定义SQL的质量规则执行完成,且出现规则执行告警后,保存质量规则的问题数据。