文档

配置数据质量监控

更新时间:

本文为您介绍如何配置表dwd_log_info_di_emr的数据质量监控。

前提条件

在进行本实验前,请确保已完成同步数据加工数据

操作步骤

进入规则配置页面

  1. 进入数据质量页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据建模与开发 > 数据质量,在下拉框中选择对应工作空间后单击进入数据质量

  2. 进入表规则配置页面。

    在数据质量左侧导航栏,单击规则配置 > 按表配置,根据如下参数定位目标表。

    • 数据源:E-MapReduce

    • 数据库:您当前的生产项目。

    • 表:本案例需要为dwd_log_info_di_emr表设置监控规则。

  3. 在搜索结果中找到目标表,单击操作列的监控配置,进入该表的质量详情页面。具体配置参考下文操作。

配置质量监控

质量监控通过监控目标表的指定数据范围(分区)检验数据是否符合预期。

此步骤中,您需要配置质量监控的数据范围dt=$[yyyymmdd-1],质量监控运行时匹配此分区的数据,从而判断其是否符合预期。

即在dwd_log_info_di_emr表的调度任务每次运行时触发质量监控,使用质量监控关联的质量规则校验对应数据范围内的数据,判断其是否符合数据质量校验规则。

具体步骤如下:

  1. 质量监控页签,单击新建质量监控

  2. 配置质量监控相关信息。

    image

    关键参数:

    参数

    配置示例

    数据范围

    dt=$[yyyymmdd-1]

    触发方式

    生产调度触发,节点选择加工数据中创建的dwd_log_info_di_emr节点。

    选择质量规则

    暂不配置,在后文中配置。

    说明

    配置数据质量监控的更多信息,请参见配置规则:按表(单表)

配置监控规则

dwd_log_info_di_emr用于对ods_raw_log_d_emr表数据进行加工,为了避免后续无效加工及质量问题,我们针对该表配置表行数大于0的强监控规则,来判断上游任务节点是否往该表的分区写入数据。

当监控到dwd_log_info_di_emr表对应分区行数为0,将触发告警,dwd_log_info_di_emr节点失败退出,并阻塞dwd_log_info_di_emr节点的下游任务执行。

具体步骤如下:

  1. 规则管理页签,选中质量监控视角下已创建的质量监控(本示例为raw_log_number_of_table_rows_not_0),然后单击创建规则,进入创建规则页面。

    image

  2. 系统模板中,找到表行数大于0规则,单击使用,然后修改重要程度强规则

    说明

    本案例规则定义为,即当监控到dwd_log_info_di_emr表行数为0时,触发告警,并且阻塞下游任务执行。

    image

  3. 单击确定

    说明

    更多配置项介绍请参见配置规则:按表(单表)

测试运行质量监控

测试运行可以验证质量监控中的校验规则配置的合理性,为确保质量规则的配置无误且符合预期,您可在规则创建完成后,测试运行质量监控。

image

  1. 单击测试运行,进入测试运行对话框。

  2. 测试运行对话框中,选择调度时间,单击测试运行

  3. 测试运行完成后,可根据界面指引,单击查看详情,查看测试结果。

    image

订阅质量监控

数据质量为您提供监控报警功能,通过订阅质量监控,及时接收质量校验异常并处理,保障数据安全、稳定、按时产出。

image

订阅管理设置完成后,在左侧导航栏,单击质量运维 > 质量监控,选中我的订阅,查看和修改已订阅的任务。

后续操作

数据加工完成后,您可以通过数据分析模块对数据进行可视化展示,详情请参见数据可视化展现