DataQualityResult

名称类型描述示例值
object

数据质量结果

Idlong

校验结果 ID

10001
Statusstring

校验结果状态

Passed
TaskInstanceIdlong

质量校验任务实例 ID

20001
Ruleobject

校验开始时,规则配置快照

Idlong

规则 ID,全局唯一标识

100001
Namestring

规则名称,数字、英文字母、汉字、半角全角标点符号组合,最长 255 个字符

表不能为空
TenantIdlong

DataWorks 租户 ID

1
ProjectIdlong

DataWorks 项目空间 ID

100
Enabledboolean

规则是否启用

true
Severitystring

规则对于业务的等级(对应页面上的强弱规则)

High
Descriptionstring

规则描述信息,最长 500 个字符

this is a odps _sql task
Targetobject

规则所监控的对象

Typestring

监控对象类型

  • Table
Table
DatabaseTypestring

表类型的数据集,表所属的数据库类型

  • maxcompute
  • emr
  • cdh
  • hologres
  • analyticdb_for_postgresql
  • analyticdb_for_mysql
  • starrocks
maxcompute
TableGuidstring

表在数据地图中的唯一 ID

odps.unit_test.tb_unit_test
PartitionSpecstring

分区表的分区设置

ds=$[yyyymmdd-1]
TemplateCodestring

创建规则时所引用的规则模板

system::user_defined
SamplingConfigobject

样本采集所需的设置

Metricstring

采样的指标名称

  • Count:表行数
  • Min:字段最小值
  • Max:字段最大值
  • Avg:字段均值
  • DistinctCount:字段唯一值个数
  • DistinctPercent:字段唯一值个数与数据行数占比
  • DuplicatedCount:字段重复值个数
  • DuplicatedPercent:字段重复值个数与数据行数占比
  • TableSize:表大小
  • NullValueCount:字段为空的行数
  • NullValuePercent:字段为空的比例
  • GroupCount:按字段值聚合后每个值与对应的数据行数
  • CountNotIn:枚举值不匹配行数
  • CountDistinctNotIn:枚举值不匹配唯一值个数
  • UserDefinedSql:通过自定义 SQL 做样本采集
Min
MetricParametersstring

样本采集时,所需的参数

{ "Columns": [ "id", "name" ] }
SettingConfigstring

具体执行采样语句前,插入执行的一些运行时参数设置语句,最长 1000 个字符。目前只支持 MaxCompute

SET odps.sql.udf.timeout=600s;
SamplingFilterstring

采样时,对不关注的数据进行二次过滤的条件,最多 16777215 个字符

id IS NULL
CheckingConfigobject

样本校验设置

Typestring

阈值计算方式

  • Fixed
  • Fluctation
  • FluctationDiscreate
  • Auto
  • Average
  • Variance
Fixed
ReferencedSamplesFilterstring

有些类型的阈值需要查询出一些参考样本,然后对参考样本的值进行汇总得出进行比较的阈值,这里使用一个表达式来表示参考样本的查询方式

{ "bizdate": [ "-1", "-7", "-1m" ] }
Thresholdsobject

阈值设置

Expectedobject

期望的阈值设置

Valuestring

阈值数值

100.0
Operatorstring

比较符

  • >
  • >=
  • <
  • <=
  • !=
  • =
>
Warnedobject

普通警告的阈值设置

Valuestring

阈值数值

100.0
Operatorstring

比较符

  • >
  • >=
  • <
  • <=
  • !=
  • =
>
Criticalobject

严重警告的阈值设置

Valuestring

阈值数值

100.0
Operatorstring

比较符

  • >
  • >=
  • <
  • <=
  • !=
  • =
>
ErrorHandlersarray<object>

质量规则校验问题处理器

object

质量规则校验问题处理器

Typestring

处理器类型

SaveErrorData
ErrorDataFilterstring

如果是自定义 SQL 规则,需要用户指定 SQL 来过滤问题数据

SELECT * FROM tb_api_log WHERE id IS NULL
Samplestring

本次校验所使用的样本值

[ { "gender": "male", "_count": 100 }, { "gender": "female", "_count": 100 } ]
Detailsarray<object>

本次校验的详情

object

校验详情

ReferencedValuestring

使用引用的样本,用来参与 CheckedValue 计算的基准值

0.0
CheckedValuestring

最终用来与阈值比较的值

100.0
Statusstring

最终的比较结果状态

Passed