通过设置逻辑表质量规则并运行质量检测计划后,您可以查看逻辑表质量检查结果,方便用户掌握当前逻辑表的质量状况,您可以通过可视化方式与自定义SQL方式制定表级与字段级质量规则。本文以可视化方式为例介绍如何设置逻辑表表规则和字段规则。
前提条件
已新建逻辑表,具体操作,请参见通过Excel导入逻辑表、通过云计算资源导入逻辑表或手动新建逻辑表。
背景信息
如果逻辑表字段配置了关联字段标准的值,则在质量规则页面,PostgreSQL、RDS MySQL、AnalyticDB PostgreSQL、Lindorm和PolarDB for PostgreSQL云计算资源类型下,系统会自动生成字段规则。
说明其中MaxCompute、Hive和HiveStorage云计算资源类型,则需要创建分区表达式后,系统才会自动生成字段规则。
模型配置完规则并打开规则开关后,在数据开发画布编辑页面引用模型后会自动生成质量检测节点。
操作步骤
步骤一:进入逻辑表质量规则设置页面
在页面左上角,单击图标,选择协同。
在顶部菜单栏,单击图标,选择目标工作组,单击资产加工 。
说明若您已在资产加工页面,请跳过“单击资产加工”的操作。
在左侧导航栏,单击图标,选择数据模型设计。
在我的模型下,将鼠标悬停至需要的目录,单击图标。
在逻辑表列表页面,单击目标逻辑表操作列的详情。
在逻辑表详情页面,单击质量规则页签。
步骤二:选择需要配置规则的计算资源以及分区
在质量规则页签,选择目标云计算资源类型,例如MaxCompute。
说明支持设置质量规则的云计算资源类型包括:MaxCompute、Hive、DataHub Service、Kafka、RDS MySQL、PostgreSQL和AnalyticDB PostgreSQL。其中仅MaxCompute、Hive和HiveStorage的云计算资源类型需要配置分区表达式。
当云计算资源类型为MaxCompute或者Hive或HiveStorage时,单击分区表达式后的图标。
在新建分区表达式对话框中,选择“ALL_PARTITIONS”或者具体的某个分区值,单击校验后,单击确定。
说明ALL_PARTITIONS:表示选择全部分区。
如果逻辑表中,添加了分区字段,则这里可以选择具体的分区值,例如“bank=$[yyyymmdd-1]”。
当逻辑表存在分区字段,且在系统设置 > 工作组管理 > 更多 > 全局参数中设置了分区字段的变量值,则这里可以直接通过校验,使用分区变量的值。更多信息,请参见新增工作组全局变量。
步骤三:设置表规则
在质量规则区域的表规则页签,单击新增规则。
在新增质量规则面板,设置规则参数。
参数
说明
规则名称
支持用户自定义,规则名称如果不输入会默认生成(规则类型+创建时间)。
强弱
强规则:若质量实际结果不满足规则,则该单项数据质量为较差。
弱规则:常规规则,如实际结果不满足规则,则该单项数据质量为一般。
规则类型
表的质量规则类型。
表行数
存储大小
主键唯一
多表记录波动率
数据唯一率
数据完整率
高级选项
说明目前仅MaxCompute、Hive、AnalyticDB PostgreSQL资源类型的部分规则显示高级选项。
仅用OpenAPI向上层应用提供更精细化的结果数据,不影响数据开发质量节点及质量评估计划执行。
选择需要的分组字段和时间参数字段。
质量结果触发动作
阻断生产场景:当打开开关时,数据开发场景中开启了该规则,且质量结果不满足期望值时,系统会阻断场景中的任务。关闭则仅记录质量结果,不影响任务执行。
+保存脏数据样例:打开开关后,将保存脏数据样例可在日志中进行查看和下载以及通过OpenAPI调用。
单击确定。
可查看已经设置好的表规则。
步骤四:设置字段规则
相关操作
操作 | 说明 |
查看逻辑表规则 | 在质量规则页签,单击表规则页签,查看表规则。在字段规则页签,查看字段规则。 |
复制质量规则 | 当逻辑表存在分区字段时,在质量规则页签,单击复制规则,可以复制源分区的规则到目标分区中。 |
编辑规则 | 在质量规则页签的对应规则列表,单击目标规则操作列的编辑,在编辑质量规则面板,修改规则后,单击确定。 |
删除规则 |
|
导入逻辑表规则 | 通过Excel 导入逻辑表的方式,支持批量导入多个规则,更多信息,请参见通过Excel导入逻辑表中选择导入的文件类型为规则时的操作。 |
设置自定义SQL规则 | 在质量规则页签,单击自定义SQL规则页签,单击新增规则,在弹出的面板中,通过输入自定义SQL语句配置规则,操作完成后单击确定。 |
后续步骤
配置完质量规则后,需要创建质量检查计划并运行,更多信息,请参见新建并启用物理表质量检查计划。