DataQualityResult

更新时间:
复制为 MD 格式
名称类型描述示例值
object

数据质量结果

Idlong

校验结果 ID

10001
Statusstring

校验结果状态

Passed
TaskInstanceIdlong

质量校验任务实例 ID

20001
Ruleobject

校验开始时,规则配置快照

Idlong

规则 ID,全局唯一标识

100001
Namestring

规则名称,数字、英文字母、汉字、半角全角标点符号组合,最长 255 个字符

表不能为空
TenantIdlong

DataWorks 租户 ID

1
ProjectIdlong

DataWorks 项目空间 ID

100
Enabledboolean

规则是否启用

true
Severitystring

规则对于业务的等级(对应页面上的强弱规则)

High
Descriptionstring

规则描述信息,最长 500 个字符

this is a odps _sql task
Targetobject

规则所监控的对象

Typestring

监控对象类型

  • Table
Table
DatabaseTypestring

表类型的数据集,表所属的数据库类型

  • maxcompute
  • emr
  • cdh
  • hologres
  • analyticdb_for_postgresql
  • analyticdb_for_mysql
  • starrocks
maxcompute
TableGuidstring

表在数据地图中的唯一 ID

odps.unit_test.tb_unit_test
PartitionSpecstring

分区表的分区设置

ds=$[yyyymmdd-1]
TemplateCodestring

创建规则时所引用的规则模板

SYSTEM:user_defined_sql
SamplingConfigobject

样本采集所需的设置

Metricstring

采样的指标名称

  • Count:表行数
  • Min:字段最小值
  • Max:字段最大值
  • Avg:字段均值
  • DistinctCount:字段唯一值个数
  • DistinctPercent:字段唯一值个数与数据行数占比
  • DuplicatedCount:字段重复值个数
  • DuplicatedPercent:字段重复值个数与数据行数占比
  • TableSize:表大小
  • NullValueCount:字段为空的行数
  • NullValuePercent:字段为空的比例
  • GroupCount:按字段值聚合后每个值与对应的数据行数
  • CountNotIn:枚举值不匹配行数
  • CountDistinctNotIn:枚举值不匹配唯一值个数
  • UserDefinedSql:通过自定义 SQL 做样本采集
Min
MetricParametersstring

样本采集时,所需的参数

{ "Columns": [ "id", "name" ] }
SettingConfigstring

具体执行采样语句前,插入执行的一些运行时参数设置语句,最长 1000 个字符。目前只支持 MaxCompute

SET odps.sql.udf.timeout=600s;
SamplingFilterstring

采样时,对不关注的数据进行二次过滤的条件,最多 16777215 个字符

id IS NULL
CheckingConfigobject

样本校验设置

Typestring

阈值计算方式

  • Fixed
  • Fluctation
  • FluctationDiscreate
  • Auto
  • Average
  • Variance
Fixed
ReferencedSamplesFilterstring

有些类型的阈值需要查询出一些参考样本,然后对参考样本的值进行汇总得出进行比较的阈值,这里使用一个表达式来表示参考样本的查询方式

{ "bizdate": [ "-1", "-7", "-1m" ] }
Thresholdsobject

阈值设置

Expectedobject

期望的阈值设置

Valuestring

阈值数值

100.0
Operatorstring

比较符

  • >
  • >=
  • <
  • <=
  • !=
  • =
>
Warnedobject

普通警告的阈值设置

Valuestring

阈值数值

100.0
Operatorstring

比较符

  • >
  • >=
  • <
  • <=
  • !=
  • =
>
Criticalobject

严重警告的阈值设置

Valuestring

阈值数值

100.0
Operatorstring

比较符

  • >
  • >=
  • <
  • <=
  • !=
  • =
>
ErrorHandlersarray<object>

质量规则校验问题处理器

object

质量规则校验问题处理器

Typestring

处理器类型

SaveErrorData
ErrorDataFilterstring

如果是自定义 SQL 规则,需要用户指定 SQL 来过滤问题数据

SELECT * FROM tb_api_log WHERE id IS NULL
Samplestring

本次校验所使用的样本值

[ { "gender": "male", "_count": 100 }, { "gender": "female", "_count": 100 } ]
Detailsarray<object>

本次校验的详情

object

校验详情

ReferencedValuestring

使用引用的样本,用来参与 CheckedValue 计算的基准值

0.0
CheckedValuestring

最终用来与阈值比较的值

100.0
Statusstring

最终的比较结果状态

Passed