本文将以ods_user_info_d_emr
表为例,演示如何通过数据质量模块的强/弱规则配置(表行数非0强校验和业务主键唯一性弱校验),在每日调度任务中实时拦截源数据缺失或主键重复异常,从而保障用户信息同步作业的下游计算可靠性。您可以参考以下内容,在数据质量模块中完成对表数据质量的监控操作。
前提条件
已通过数据集成将存储于RDS MySQL的用户基本信息(ods_user_info_d)同步至EMR集群Hive的ods_user_info_d_emr表。
已通过数据集成将存储于OSS的网站访问日志(user_log.txt)同步至EMR集群Hive的ods_raw_log_d_emr表。
已通过数据开发Data Studio将数据加工为用户画像的基本数据。
数据质量监控需求分析
本案例通过DataWorks数据质量功能,及时感知用户画像分析案例中源端数据的变更以及ETL(Extract, Transform, Load)过程中产生的脏数据。基于用户画像分析的加工流程,可以对以下表按需配置质量监控规则:
表名 | 需求明细 |
表名 | 需求明细 |
ods_raw_log_d_emr | 对每日同步的原始日志数据进行表数据非0校验(强规则),以确保每天都能成功获取到原始日志数据,避免因数据缺失而影响后续计算。 |
ods_user_info_d_emr | 对每日同步的用户信息数据进行表行数非0校验(强规则)和业务主键唯一性校验(弱规则),以确保每天都能成功获取到用户信息数据,并且避免数据重复,从而保障后续计算的准确性。 |
dwd_log_info_di_emr | 任务正常执行即可,不单独进行监控。 |
dws_user_info_all_di_emr | 任务正常执行即可,不单独进行监控。 |
ads_user_info_1d_emr | 对每日用户数据进行表行数波动监测,可以帮助您观察每日唯一访客(UV)的波动情况,从而及时了解应用的动态。 |
以下内容将以ods_user_info_d_emr
表为例,为您介绍如何通过数据质量模块对周期性调度生成的表数据进行数据质量监控。
步骤一:进入规则配置页面
进入数据质量页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据质量。
进入表规则配置页面。
在数据质量左侧导航栏,单击
,根据如下参数定位目标表。数据库类型:E-MapReduce。
表:
ods_user_info_d_emr
。
在搜索结果中找到目标表,单击操作列的规则管理,进入该表的质量详情页面。具体配置参考下文操作。
步骤二:配置质量监控规则
以下将以配置ods_user_info_d_emr
表的指定分区数据非空规则校验为例,为您介绍如何在数据质量模块中设置数据质量规则。具体包括:如何新建规则、如何定义质量规则的触发方式,以及定义异常规则影响策略。
选择监控范围。
在质量监控页签,单击新建质量监控。
配置数据范围为
dt=$[yyyymmdd-1]
。若要监控周期性调度产出的表数据,此处当天参数替换需要与表当天产出的分区值一致。
新建质量规则。
以下将以配置
ods_user_info_d_emr
表的行数非空校验为例,为您介绍如何在数据质量模块中设置表的数据质量规则。更多关于质量规则的配置操作,请参见:配置规则:按表(单表)。在新建质量监控页面,单击新建规则,进入新建规则页面。
在新建规则页面的系统模板中,找到表行数大于0规则,单击使用,修改重要程度为强规则。
本案例的规则定义为强,即当监控到
ods_user_info_d_emr
表行数为0时,会触发告警,并且阻塞下游任务执行。在新建规则页面的系统模板中,找到唯一值个数,固定值规则,单击使用,修改规则范围、监控阈值和重要程度如下。
规则范围:
uid(STRING)
监控阈值:
正常阈值 = 0
重要程度:
弱规则
单击确定,保存配置的监控规则。
指定运行方式。
选择生产调度触发,节点选择同步数据中创建的
ods_user_info_d_emr
节点。定义质量问题处理策略。
您可在此选择定义问题处置过程中阻塞和告警策略。
配置完成后,单击保存质量监控信息。
步骤三:试运行质量监控规则
配置完成后,您可通过测试运行验证质量监控中的校验规则配置是否合理。为了确保质量规则的配置无误且符合预期,您可以在创建规则后进行测试运行,以检查质量监控的效果。
在规则管理页签,选中质量监控视角下已创建的质量监控,然后在右侧单击测试运行,进入测试运行对话框。
在测试运行对话框选择调度时间后,单击测试运行。
启动成功后,您可单击测试运行下方的查看详情,查看质量监控规则是否校验通过。
步骤四:订阅质量监控告警
配置完质量监控规则后,您可通过以下操作,配置告警订阅的订阅方式和接收对象,确保报警能被正常接收。
在规则管理页签,选中质量监控视角下已创建的质量监控规则。
在右侧单击告警订阅。
根据界面提示添加订阅方式和接收对象,单击操作列的保存。
完成订阅管理设置后,在左侧导航栏中,单击
,选中我的订阅,即可查看和修改已订阅的任务。
后续操作
数据加工完成后,您可以通过数据分析模块对数据进行可视化展示,详情请参见数据可视化展现。
- 本页导读
- 前提条件
- 数据质量监控需求分析
- 步骤一:进入规则配置页面
- 步骤二:配置质量监控规则
- 步骤三:试运行质量监控规则
- 步骤四:订阅质量监控告警
- 后续操作