DataQualityRule

名称类型描述示例值
object

数据质量规则

Idlong

规则 ID

1
Namestring

规则名称,数字、英文字母、汉字、半角全角标点符号组合,最长 255 个字符

表不能为空
TenantIdlong

Dataworks 租户 ID

1
ProjectIdlong

Dataworks 项目空间 ID

100
Enabledboolean

规则是否启用

true
Severitystring

规则对于业务的等级(对应页面上的强弱规则),可选的枚举值:

  • Normal
  • High
High
Descriptionstring

规则描述信息,最长 500 个字符

this is a odps _sql task
TemplateCodestring

创建规则时所引用的规则模板

system::user_defined
Targetobject

规则所监控的对象

Typestring

监控对象类型

  • Table
Table
DatabaseTypestring

表类型的数据集,表所属的数据库类型

  • maxcompute
  • emr
  • cdh
  • hologres
  • analyticdb_for_postgresql
  • analyticdb_for_mysql
  • starrocks
maxcompute
TableGuidstring

表在数据地图中的唯一 ID

odps.unit_test.tb_unit_test
PartitionSpecstring

分区表的分区设置

ds=$[yyyymmdd-1]
SamplingConfigobject

样本采集所需的设置

Metricstring

采样的指标名称

  • Count:表行数
  • Min:字段最小值
  • Max:字段最大值
  • Avg:字段均值
  • DistinctCount:字段唯一值个数
  • DistinctPercent:字段唯一值个数与数据行数占比
  • DuplicatedCount:字段重复值个数
  • DuplicatedPercent:字段重复值个数与数据行数占比
  • TableSize:表大小
  • NullValueCount:字段为空的行数
  • NullValuePercent:字段为空的比例
  • GroupCount:按字段值聚合后每个值与对应的数据行数
  • CountNotIn:枚举值不匹配行数
  • CountDistinctNotIn:枚举值不匹配唯一值个数
  • UserDefinedSql:通过自定义 SQL 做样本采集
Min
MetricParametersstring

样本采集时,所需的参数

{ "Columns": [ "id", "name" ] }
SettingConfigstring

具体执行采样语句前,插入执行的一些运行时参数设置语句,最长 1000 个字符。目前只支持 MaxCompute

SET odps.sql.udf.timeout=600s;
SamplingFilterstring

采样时,对不关注的数据进行二次过滤的条件,最多 16777215 个字符

id IS NULL
CheckingConfigobject

样本校验设置

Typestring

阈值计算方式

  • Fixed
  • Fluctation
  • FluctationDiscreate
  • Auto
  • Average
  • Variance
Fixed
ReferencedSamplesFilterstring

有些类型的阈值需要查询出一些参考样本,然后对参考样本的值进行汇总得出进行比较的阈值,这里使用一个表达式来表示参考样本的查询方式

{ "bizdate": [ "-1", "-7", "-1m" ] }
Thresholdsobject

阈值设置

Expectedobject

期望的阈值设置

Valuestring

阈值数值

100.0
Operatorstring

比较符

  • />
  • />=
  • <
  • <=
  • !=
  • =
>
Warnedobject

普通警告的阈值设置

Valuestring

阈值数值

100.0
Operatorstring

比较符

  • />
  • />=
  • <
  • <=
  • !=
  • =
>
Criticalobject

严重警告的阈值设置

Valuestring

阈值数值

100.0
Operatorstring

比较符

  • />
  • />=
  • <
  • <=
  • !=
  • =
>
ErrorHandlersarray<object>

质量规则校验问题处理器

object
Typestring

处理器类型:

  • SaveErrorData
SaveErrorData
ErrorDataFilterstring

如果是自定义 SQL 规则,需要用户指定 SQL 来过滤问题数据

SELECT * FROM tb_api_log WHERE id IS NULL