阿里云首页 数据资源平台

设置逻辑表质量规则

通过设置逻辑表质量规则并运行质量检测计划后,您可以查看质量检查结果,方便用户掌握当前逻辑表的质量状况,您可以通过可视化方式与自定义SQL方式制定表级与字段级质量规则。本文以可视化方式为例介绍如何设置逻辑表表规则和字段规则。

前提条件

已新建逻辑表,具体操作,请参见通过Excel导入逻辑表通过云计算资源导入逻辑表手动新建逻辑表

背景信息

  • 如果逻辑表字段配置了关联字段标准的值,则在质量规则页面,PostgreSQL、ApsaraDB for RDS、AnalyticDB PostgreSQL云计算资源类型下,系统会自动生成字段规则。

    说明

    其中MaxCompute和Hive云计算资源类型,则需要创建分区表达式后,系统才会自动生成字段规则。

  • 模型配置完规则并打开规则开关后,在数据开发画布编辑页面引用模型后会自动生成质量检测节点。

操作步骤

步骤一:登录逻辑表质量规则设置页面

  1. 登录数据资源平台控制台

  2. 在页面左上角,选择工作台 > 研发工作台

  3. 在顶部菜单栏,单击选择工作组图标,选择目标工作组,单击资产加工

    说明

    若您已在资产加工页面,请跳过“单击资产加工”的操作。

  4. 在左侧导航栏,选择建模 > 数据模型设计

  5. 我的模型下,将鼠标悬停至需要的目录,单击进入图标。

  6. 在逻辑表列表页面,单击目标逻辑表操作列的详情

  7. 在逻辑表详情页面,单击质量规则页签。5412

步骤二:选择需要配置规则的计算资源以及分区

  1. 质量规则页签,选择目标云计算资源类型,例如MaxCompute。

    说明

    支持设置质量规则的云计算资源类型包括:MaxCompute、Hive、DataHub Service、Kafka、RDS、PG和AnalyticDB PostgreSQL。其中仅MaxCompute和Hive的云计算资源类型需要配置分区。

  2. 当云计算资源类型为MaxCompute和Hive时,单击分区表达式后的增加分区图标。

    分区表达式
  3. 新建分区表达式对话框中,选择“ALL_PARTITIONS”或者具体的某个分区值,单击校验后,单击确定分区

    说明
    • ALL_PARTITIONS:表示选择全部分区。

    • 如果逻辑表中,添加了分区字段,则这里可以选择具体的分区值,例如“bank=$[yyyymmdd-1]”。

    • 当逻辑表存在分区字段,且在系统设置 > 工作组管理 > 更多 > 全局参数中设置了分区字段的变量值,则这里可以直接通过校验,使用分区变量的值。更多信息,请参见添加全局参数

步骤三:设置表规则

  1. 质量规则区域的表规则页签,单击新增规则

  2. 在新增质量规则面板,设置规则参数。新建表规则

    参数

    说明

    规则名称

    支持用户自定义,规则名称如果不输入会默认生成(规则类型+创建时间)。

    强弱

    • 强规则:若质量实际结果不满足规则,则该单项数据质量为较差。

    • 弱规则:常规规则,如实际结果不满足规则,则该单项数据质量为一般。

    规则触发动作

    记录结果:仅记录质量结果,不影响任务执行。

    阻断任务:当数据开发场景中开启了该规则,且质量结果不满足期望值时,规则上报告警后系统会阻断场景中的任务。

    规则类型

    质量规则的类型。

    • 表行数

    • 存储大小

    • 主键唯一

    • 多表记录波动率

    • 数据唯一率

    • 数据完整率

    趋势

    检测的维度为表行数的波动情况。

    校验类型

    检测的时间周期。

    比较方式

    波动数值的取值方式。支持上升、下降和绝对值三种方式。

    波动比较

    表行数在检测周期内允许的波动幅度。

  3. 单击确定手动创建

步骤四:设置字段规则

  • 方式一:通过配置逻辑表关联字段标准的值,自动生成字段规则。

    1. 配置逻辑表关联字段标准的值,具体操作,请参见配置逻辑表关联标准字段

    2. 质量规则页签,选择分区表达式,具体操作,请参见本文的步骤二。

      配置完成后系统会自动生成多条字段规则。

    3. 字段规则页签,单击目标字段规则前面的启用.png图标,打开字段规则开关。41258

  • 方式二:手动新建字段规则。

    1. 质量规则区域的字段规则页签,单击新增规则

    2. 在新增质量规则面板,设置规则参数。字段规则

      说明

      其中各个数据类型的含义:

      • 系统统计类:主要从统计学角度设置字段规则,包括最大值、唯一率、重复率等判断字段是否符合要求。

      • 数据元类:适用于选择的字段已关联了数据元后的规则。

      • 维度类:适用于选择的字段已关联了维度后的规则,包括字段长度和字段值类型的校验。

    3. 单击确定

      操作完成后可以查看已创建的字段规则。重复率

相关操作

操作

说明

查看逻辑表规则

  • 质量规则页签,单击表规则页签,查看表规则。120365

  • 质量规则页签,单击字段规则页签,查看字段规则。41258

复制质量规则

当逻辑表存在分区字段时,在质量规则页签,单击复制规则,可以复制源分区的规则到目标分区中。

导入逻辑表规则

通过Excel 导入逻辑表的方式,支持批量导入多个规则,更多信息,请参见通过Excel导入逻辑表中选择导入的文件类型为规则时的操作。

设置自定义SQL规则

质量规则页签,单击自定义SQL规则页签,单击新增规则,在弹出的面板中,通过输入自定义SQL语句配置规则,操作完成后单击确定

后续步骤

配置完质量规则后,需要创建质量检测计划并运行,更多信息,请参见新建并启用物理表质量检查计划

首页 数据资源平台 用户指南 数据建模 设置逻辑表质量规则