设置逻辑表质量规则

更新时间:

通过设置逻辑表质量规则并运行质量检测计划后,您可以查看逻辑表质量检查结果,方便用户掌握当前逻辑表的质量状况,您可以通过可视化方式与自定义SQL方式制定表级与字段级质量规则。本文以可视化方式为例介绍如何设置逻辑表表规则和字段规则。

前提条件

已新建逻辑表,具体操作,请参见通过Excel导入逻辑表通过云计算资源导入逻辑表手动新建逻辑表

背景信息

  • 如果逻辑表字段配置了关联字段标准的值,则在质量规则页面,PostgreSQL、RDS MySQL、AnalyticDB PostgreSQL、Lindorm和PolarDB for PostgreSQL云计算资源类型下,系统会自动生成字段规则。

    说明

    其中MaxCompute、Hive和HiveStorage云计算资源类型,则需要创建分区表达式后,系统才会自动生成字段规则。

  • 模型配置完规则并打开规则开关后,在数据开发画布编辑页面引用模型后会自动生成质量检测节点。

操作步骤

步骤一:进入逻辑表质量规则设置页面

  1. 登录企业数据智能平台

  2. 在页面左上角,单击菜单图标,选择协同

  3. 在顶部菜单栏,单击选择工作组图标,选择目标工作组,单击资产加工

    说明

    若您已在资产加工页面,请跳过“单击资产加工”的操作。

  4. 在左侧导航栏,单击建模图标,选择数据模型设计

  5. 我的模型下,将鼠标悬停至需要的目录,单击image图标。

  6. 在逻辑表列表页面,单击目标逻辑表操作列的详情

  7. 在逻辑表详情页面,单击质量规则页签。

步骤二:选择需要配置规则的计算资源以及分区

  1. 质量规则页签,选择目标云计算资源类型,例如MaxCompute。

    说明

    支持设置质量规则的云计算资源类型包括:MaxCompute、Hive、DataHub Service、Kafka、RDS MySQL、PostgreSQL和AnalyticDB PostgreSQL。其中仅MaxCompute、Hive和HiveStorage的云计算资源类型需要配置分区表达式。

  2. 当云计算资源类型为MaxCompute或者Hive或HiveStorage时,单击分区表达式后的增加分区图标。image

  3. 新建分区表达式对话框中,选择“ALL_PARTITIONS”或者具体的某个分区值,单击校验后,单击确定

    说明
    • ALL_PARTITIONS:表示选择全部分区。

    • 如果逻辑表中,添加了分区字段,则这里可以选择具体的分区值,例如“bank=$[yyyymmdd-1]”。

    • 当逻辑表存在分区字段,且在系统设置 > 工作组管理 > 更多 > 全局参数中设置了分区字段的变量值,则这里可以直接通过校验,使用分区变量的值。更多信息,请参见新增工作组全局变量

步骤三:设置表规则

  1. 质量规则区域的表规则页签,单击新增规则

  2. 新增质量规则面板,设置规则参数。image

    参数

    说明

    规则名称

    支持用户自定义,规则名称如果不输入会默认生成(规则类型+创建时间)。

    强弱

    • 强规则:若质量实际结果不满足规则,则该单项数据质量为较差。

    • 弱规则:常规规则,如实际结果不满足规则,则该单项数据质量为一般。

    规则类型

    表的质量规则类型。

    • 表行数

    • 存储大小

    • 主键唯一

    • 多表记录波动率

    • 数据唯一率

    • 数据完整率

    高级选项

    说明

    目前仅MaxCompute、Hive、AnalyticDB PostgreSQL资源类型的部分规则显示高级选项。

    仅用OpenAPI向上层应用提供更精细化的结果数据,不影响数据开发质量节点及质量评估计划执行。

    选择需要的分组字段和时间参数字段。

    质量结果触发动作

    • 阻断生产场景:当打开开关时,数据开发场景中开启了该规则,且质量结果不满足期望值时,系统会阻断场景中的任务。关闭则仅记录质量结果,不影响任务执行。

    • +保存脏数据样例:打开开关后,将保存脏数据样例可在日志中进行查看和下载以及通过OpenAPI调用。

  3. 单击确定

    可查看已经设置好的表规则。

步骤四:设置字段规则

  • 方式一:通过配置逻辑表关联字段标准的值,自动生成字段规则。

    1. 配置逻辑表关联字段标准的值,具体操作,请参见配置逻辑表关联字段标准

    2. 质量规则页签,选择分区表达式(这里以MaxCompute云计算资源类型为例),具体操作,请参见步骤二:选择需要配置规则的计算资源以及分区

      说明

      如果逻辑表字段配置了关联字段标准的值,则在质量规则页面:

      • MaxCompute和Hive云计算资源类型,则需要创建分区表达式后,系统才会自动生成字段规则。

      • PostgreSQL、RDS MySQL、AnalyticDB PostgreSQL云计算资源类型下,系统会自动生成字段规则。

      配置完成后系统会自动生成多条字段规则。

    3. 字段规则页签,启用规则。

      • 单个启用:单击目标字段规则启停状态列的启用.png开关,打开字段规则开关。

      • 批量启用:选中需要启用的规则,单击左下角批量启用,批量启用规则。

  • 方式二:手动新建字段规则。

    1. 质量规则区域的字段规则页签,单击新增规则

    2. 新增质量规则面板,设置规则参数。image

      参数

      说明

      规则名称

      支持用户自定义,规则名称如果不输入会默认生成(规则类型+创建时间)。

      强弱

      • 强规则:若质量实际结果不满足规则,则该单项数据质量为较差。

      • 弱规则:常规规则,如实际结果不满足规则,则该单项数据质量为一般。

      字段名称

      待配置规则的字段名称。

      数据类型

      • 系统统计类:主要从统计学角度设置字段规则,包括最大值、唯一率、重复率等判断字段是否符合要求。

      • 数据元类:适用于选择的字段已关联了数据元后的规则。

      • 维度类:适用于选择的字段已关联了维度后的规则,包括字段长度和字段值类型的校验。

      规则类型

      字段的质量规则类型。包括:

      • 空值率

      • 唯一率

      • 重复率

      • 空值数量

      • 最大值

      • 最小值

      • 唯一值

      • 和重复值。

      高级选项

      说明

      目前仅MaxCompute、Hive、AnalyticDB PostgreSQL资源类型的部分规则显示高级选项。

      仅用OpenAPI向上层应用提供更精细化的结果数据,不影响数据开发质量节点及质量评估计划执行。

      选择需要的分组字段和时间参数字段。

      质量结果触发动作

      • 阻断生产场景:当打开开关时,数据开发场景中开启了该规则,且质量结果不满足期望值时,系统会阻断场景中的任务。关闭则仅记录质量结果,不影响任务执行。

      • +保存脏数据样例:打开开关后,将保存脏数据样例可在日志中进行查看和下载以及通过OpenAPI调用。

    3. 单击确定

      操作完成后可以查看已创建的字段规则。

相关操作

操作

说明

查看逻辑表规则

质量规则页签,单击表规则页签,查看表规则。在字段规则页签,查看字段规则。

复制质量规则

当逻辑表存在分区字段时,在质量规则页签,单击复制规则,可以复制源分区的规则到目标分区中。

编辑规则

质量规则页签的对应规则列表,单击目标规则操作列的编辑,在编辑质量规则面板,修改规则后,单击确定

删除规则

  • 单个删除:在质量规则页签的对应规则列表,单击目标规则操作列的删除,删除规则。

  • 批量删除:在质量规则页签的对应规则列表,选中一个或者多个目标规则,单击左下角的批量删除,删除规则。

导入逻辑表规则

通过Excel 导入逻辑表的方式,支持批量导入多个规则,更多信息,请参见通过Excel导入逻辑表中选择导入的文件类型为规则时的操作。

设置自定义SQL规则

质量规则页签,单击自定义SQL规则页签,单击新增规则,在弹出的面板中,通过输入自定义SQL语句配置规则,操作完成后单击确定

后续步骤

配置完质量规则后,需要创建质量检查计划并运行,更多信息,请参见新建并启用物理表质量检查计划