监控数据质量

更新时间:2025-03-13 10:27:01

本文将以ods_user_info_d_emr表为例,演示如何通过数据质量模块的强/弱规则配置(表行数非0强校验和业务主键唯一性弱校验),在每日调度任务中实时拦截源数据缺失或主键重复异常,从而保障用户信息同步作业的下游计算可靠性。您可以参考以下内容,在数据质量模块中完成对表数据质量的监控操作。

前提条件

在进行本实验前,请确保已完成同步数据加工数据

  • 已通过数据集成将存储于RDS MySQL的用户基本信息(ods_user_info_d)同步至EMR集群Hiveods_user_info_d_emr表。

  • 已通过数据集成将存储于OSS的网站访问日志(user_log.txt)同步至EMR集群Hiveods_raw_log_d_emr表。

  • 已通过数据开发Data Studio将数据加工为用户画像的基本数据。

数据质量监控需求分析

本案例通过DataWorks数据质量功能,及时感知用户画像分析案例中源端数据的变更以及ETL(Extract, Transform, Load)过程中产生的脏数据。基于用户画像分析的加工流程,可以对以下表按需配置质量监控规则:

表名

需求明细

表名

需求明细

ods_raw_log_d_emr

对每日同步的原始日志数据进行表数据非0校验(强规则),以确保每天都能成功获取到原始日志数据,避免因数据缺失而影响后续计算。

ods_user_info_d_emr

对每日同步的用户信息数据进行表行数非0校验(强规则)和业务主键唯一性校验(弱规则),以确保每天都能成功获取到用户信息数据,并且避免数据重复,从而保障后续计算的准确性。

dwd_log_info_di_emr

任务正常执行即可,不单独进行监控。

dws_user_info_all_di_emr

任务正常执行即可,不单独进行监控。

ads_user_info_1d_emr

对每日用户数据进行表行数波动监测,可以帮助您观察每日唯一访客(UV)的波动情况,从而及时了解应用的动态。

以下内容将以ods_user_info_d_emr表为例,为您介绍如何通过数据质量模块对周期性调度生成的表数据进行数据质量监控。

步骤一:进入规则配置页面

  1. 进入数据质量页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据质量,在下拉框中选择对应工作空间后单击进入数据质量

  2. 进入表规则配置页面。

    在数据质量左侧导航栏,单击规则配置 > 按表配置,根据如下参数定位目标表。

    • 数据库类型:E-MapReduce。

    • 表:ods_user_info_d_emr

  3. 在搜索结果中找到目标表,单击操作列的规则管理,进入该表的质量详情页面。具体配置参考下文操作。

步骤二:配置质量监控规则

以下将以配置ods_user_info_d_emr表的指定分区数据非空规则校验为例,为您介绍如何在数据质量模块中设置数据质量规则。具体包括:如何新建规则、如何定义质量规则的触发方式,以及定义异常规则影响策略。

  1. 选择监控范围。

    1. 质量监控页签,单击新建质量监控

    2. 配置数据范围dt=$[yyyymmdd-1]

      说明

      若要监控周期性调度产出的表数据,此处当天参数替换需要与表当天产出的分区值一致。

  2. 新建质量规则。

    以下将以配置ods_user_info_d_emr表的行数非空校验为例,为您介绍如何在数据质量模块中设置表的数据质量规则。更多关于质量规则的配置操作,请参见:配置规则:按表(单表)

    1. 新建质量监控页面,单击新建规则,进入新建规则页面。

    2. 新建规则页面的系统模板中,找到表行数大于0规则,单击使用,修改重要程度强规则

      说明

      本案例的规则定义为,即当监控到ods_user_info_d_emr表行数为0时,会触发告警,并且阻塞下游任务执行。

    3. 新建规则页面的系统模板中,找到唯一值个数,固定值规则,单击使用,修改规则范围监控阈值重要程度如下

      • 规则范围uid(STRING)

      • 监控阈值正常阈值 = 0

      • 重要程度弱规则

    4. 单击确定,保存配置的监控规则。

  3. 指定运行方式。

    选择生产调度触发,节点选择同步数据中创建的ods_user_info_d_emr节点。

  4. 定义质量问题处理策略。

    您可在此选择定义问题处置过程中阻塞告警策略。

  5. 配置完成后,单击保存质量监控信息。

步骤三:试运行质量监控规则

配置完成后,您可通过测试运行验证质量监控中的校验规则配置是否合理。为了确保质量规则的配置无误且符合预期,您可以在创建规则后进行测试运行,以检查质量监控的效果。

  1. 规则管理页签,选中质量监控视角下已创建的质量监控,然后在右侧单击测试运行,进入测试运行对话框。

  2. 测试运行对话框选择调度时间后,单击测试运行

  3. 启动成功后,您可单击测试运行下方的查看详情,查看质量监控规则是否校验通过。

步骤四:订阅质量监控告警

配置完质量监控规则后,您可通过以下操作,配置告警订阅的订阅方式和接收对象,确保报警能被正常接收。

  1. 规则管理页签,选中质量监控视角下已创建的质量监控规则。

  2. 在右侧单击告警订阅

  3. 根据界面提示添加订阅方式接收对象,单击操作列的保存

  4. 完成订阅管理设置后,在左侧导航栏中,单击质量运维 > 质量监控,选中我的订阅,即可查看和修改已订阅的任务。

后续操作

数据加工完成后,您可以通过数据分析模块对数据进行可视化展示,详情请参见数据可视化展现

  • 本页导读
  • 前提条件
  • 数据质量监控需求分析
  • 步骤一:进入规则配置页面
  • 步骤二:配置质量监控规则
  • 步骤三:试运行质量监控规则
  • 步骤四:订阅质量监控告警
  • 后续操作
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等