数据质量入门

数据质量帮助您及时感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,阻断脏数据向下游蔓延。避免任务产出问题数据,影响正常使用和业务决策。本文示例配置表数据质量监控规则,保障产出的表数据符合预期,为您介绍数据质量的基本使用。

前提条件

根据数据开发:开发者文档创建result_table节点,及节点产出的result_table表。

说明

本文均以result_table表来演示数据质量的功能,实际执行时,也可基于您使用的表执行相关操作。

背景信息

数据质量支持以表为维度,为某个表配置质量规则;或以规则模板为维度,批量为多个表配置某个质量规则。本文仅以配置单表的质量规则示例。

进入数据质量

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 单击左上角的图标图标,选择全部产品 > 数据治理 > 数据质量

操作流程

  1. 步骤一:配置分区表达式

    通过分区表达式匹配数据质量规则需校验的目标表的分区。

  2. 步骤二:创建质量规则

    根据业务需求,创建校验表数据的质量规则。

  3. 步骤三:试跑质量规则

    运行创建的规则,测试验证规则的正确性。

  4. 步骤四:质量规则关联调度节点

    通过关联调度节点,定义质量规则触发的方式及时间。当调度节点执行后,将会触发该节点关联的数据质量校验规则自动运行。

  5. 步骤五:订阅质量规则

    订阅数据质量规则,订阅后,您会第一时间收到校验结果的异常报警并快速处理。

步骤一:配置分区表达式

数据质量通过分区表达式来确定需要进行质量校验的表分区。您需要找到目标表,并为其配置所需分区表达式。

  1. 进入数据质量

  2. 查找目标表并进入表规则配置页面。

    1. 在左侧导航栏单击规则管理 > 按表配置

    2. 通过引擎、表名称等信息筛选,找到目标表。

    3. 单击目标表操作列的配置监控规则

    本文示例进入result_table表的监控规则配置页面,步骤如下图。进入配置监控规则

  3. 配置分区表达式。

    通常,为保障周期调度产出的表数据符合预期,建议该分区表达式的取值与当天周期调度产出的表分区一致。

    说明

    单表可多次执行添加操作,配置多个分区表达式,校验多个分区数据。

    1. 在表规则配置页面,单击添加图标。

    2. 添加分区对话框输入分区表达式,单击计算

      您可查看分区表达式的计算结果是否符合预期,若不符合则请及时修正。

    3. 单击确认,成功添加分区。

    本文示例配置下图的分区表达式,校验result_table表当天执行产出的分区数据是否符合预期。配置分区表达式

步骤二:创建质量规则

确定校验的表分区后,需为其创建校验该表分区数据的质量规则。您可直接使用数据质量提供的模板规则,也可自定义规则。DataWorks支持自定义规则强弱,控制规则产生的影响,当数据质量校验不符合预期时,用于决定是否自动拦截问题任务、阻断脏数据向下游蔓延。规则创建后默认为强规则,您可根据实际情况进行修改。

  • 强规则:红色异常报警并阻塞下游任务节点,橙色异常报警但不阻塞下游任务节点。

  • 弱规则:红色异常报警但不阻塞下游任务节点,橙色异常不报警也不阻塞下游任务节点。

  1. 单击创建规则

  2. 创建数据质量校验规则。

    创建规则对话框,您可选择创建模板规则或自定义规则:

    • 模板规则:基于常用场景,提供了多种内置模板规则,您可直接使用。详情请参见配置规则:按表(单表)

    • 自定义规则:如果模板规则不能满足您对分区表达式中数据质量的监控需求,您可通过创建自定义规则来满足个性化监控需求,详情请参见配置规则:按表(单表)

  3. 单击批量添加,完成规则的创建。

    创建的规则默认为强规则,您可根据需要修改规则的强弱。修改规则强弱。

本文示例,基于模板规则为result_table表快速创建表行数大于0的强校验规则。创建规则

步骤三:试跑质量规则

为确保质量规则的配置符合预期,您可在规则创建完成后,试跑该规则。试跑时,将根据您选择的调度时间、分区表达式、配置的质量校验规则,确认当前试跑的分区是否符合预期。

  1. 在规则列表页面单击试跑

  2. 配置试跑分区调度时间,单击试跑

  3. 试跑结束后,单击下方链接,查看试跑结果。

本文示例,试跑表级规则_2022年8月24日 11:00:58规则并查看试跑结果。您可根据试跑结果处理异常问题。试跑规则

步骤四:质量规则关联调度节点

数据质量可通过关联调度节点触发执行质量校验规则,即当调度节点调度执行时,其关联的质量规则便会自动执行。

  1. 在规则列表页面单击关联调度

  2. 添加需要关联的任务节点。

    添加节点后,该节点运行时便会触发执行当前表质量校验规则。通常,建议表的质量校验规则关联产出该表数据的调度节点。

本文示例关联产出result_table表数据的result_table调度节点。关联调度节点

步骤五:订阅质量规则

数据质量为您提供监控报警功能,通过订阅某表数据质量校验规则,第一时间接收质量校验异常结果并快速处理,保障数据安全、稳定、按时产出。

  1. 在规则列表页面单击订阅管理

  2. 配置报警消息的接收信息。

    DataWorks支持您使用短信、邮件等多种方式接收质量校验异常的报警信息。

本文示例配置通过邮件方式接收报警消息。订阅报警消息

后续步骤

当产出目标表数据的任务启动执行时,则会触发其关联的数据质量规则校验。您可在实例详情页查看实例状态,并单击运行日志中的DQC,查看数据质量校验过程。查看周期实例,详情请参见查看周期实例

本文示例查看result_table的质量报警结果。质量报警结果