数据质量帮助您及时感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,阻断脏数据向下游蔓延。避免任务产出问题数据,影响正常使用和业务决策。本文示例配置表数据质量监控规则,保障产出的表数据符合预期,为您介绍数据质量的基本使用。
前提条件
根据数据开发:开发者文档创建result_table
节点,及节点产出的result_table
表。
本文均以result_table
表来演示数据质量的功能,实际执行时,也可基于您使用的表执行相关操作。
背景信息
数据质量支持以表为维度,为某个表配置质量规则;或以规则模板为维度,批量为多个表配置某个质量规则。本文仅以配置单表的质量规则示例。
使用模板批量为多个表配置质量规则,详情请参见配置规则:按模板(批量)。
更多数据质量功能介绍,详情请参见数据质量概述。
进入数据质量
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
单击左上角的图标,选择 。
操作流程
通过分区表达式匹配数据质量规则需校验的目标表的分区。
根据业务需求,创建校验表数据的质量规则。
运行创建的规则,测试验证规则的正确性。
通过关联调度节点,定义质量规则触发的方式及时间。当调度节点执行后,将会触发该节点关联的数据质量校验规则自动运行。
订阅数据质量规则,订阅后,您会第一时间收到校验结果的异常报警并快速处理。
步骤一:配置分区表达式
数据质量通过分区表达式来确定需要进行质量校验的表分区。您需要找到目标表,并为其配置所需分区表达式。
查找目标表并进入表规则配置页面。
在左侧导航栏单击 。
通过引擎、表名称等信息筛选,找到目标表。
单击目标表操作列的配置监控规则。
本文示例进入
result_table
表的监控规则配置页面,步骤如下图。配置分区表达式。
通常,为保障周期调度产出的表数据符合预期,建议该分区表达式的取值与当天周期调度产出的表分区一致。
说明单表可多次执行添加操作,配置多个分区表达式,校验多个分区数据。
在表规则配置页面,单击图标。
在添加分区对话框输入分区表达式,单击计算。
您可查看分区表达式的计算结果是否符合预期,若不符合则请及时修正。
单击确认,成功添加分区。
本文示例配置下图的分区表达式,校验
result_table
表当天执行产出的分区数据是否符合预期。
步骤二:创建质量规则
确定校验的表分区后,需为其创建校验该表分区数据的质量规则。您可直接使用数据质量提供的模板规则,也可自定义规则。DataWorks支持自定义规则强弱,控制规则产生的影响,当数据质量校验不符合预期时,用于决定是否自动拦截问题任务、阻断脏数据向下游蔓延。规则创建后默认为强规则,您可根据实际情况进行修改。
强规则:红色异常报警并阻塞下游任务节点,橙色异常报警但不阻塞下游任务节点。
弱规则:红色异常报警但不阻塞下游任务节点,橙色异常不报警也不阻塞下游任务节点。
单击创建规则。
创建数据质量校验规则。
在创建规则对话框,您可选择创建模板规则或自定义规则:
模板规则:基于常用场景,提供了多种内置模板规则,您可直接使用。详情请参见配置规则:按表(单表)。
自定义规则:如果模板规则不能满足您对分区表达式中数据质量的监控需求,您可通过创建自定义规则来满足个性化监控需求,详情请参见配置规则:按表(单表)。
单击批量添加,完成规则的创建。
创建的规则默认为强规则,您可根据需要修改规则的强弱。
本文示例,基于模板规则为result_table
表快速创建表行数大于0
的强校验规则。
步骤三:试跑质量规则
为确保质量规则的配置符合预期,您可在规则创建完成后,试跑该规则。试跑时,将根据您选择的调度时间、分区表达式、配置的质量校验规则,确认当前试跑的分区是否符合预期。
在规则列表页面单击试跑。
配置试跑分区及调度时间,单击试跑。
试跑结束后,单击下方链接,查看试跑结果。
本文示例,试跑表级规则_2022年8月24日 11:00:58
规则并查看试跑结果。您可根据试跑结果处理异常问题。
步骤四:质量规则关联调度节点
数据质量可通过关联调度节点触发执行质量校验规则,即当调度节点调度执行时,其关联的质量规则便会自动执行。
在规则列表页面单击关联调度。
添加需要关联的任务节点。
添加节点后,该节点运行时便会触发执行当前表质量校验规则。通常,建议表的质量校验规则关联产出该表数据的调度节点。
本文示例关联产出result_table
表数据的result_table
调度节点。
步骤五:订阅质量规则
数据质量为您提供监控报警功能,通过订阅某表数据质量校验规则,第一时间接收质量校验异常结果并快速处理,保障数据安全、稳定、按时产出。
在规则列表页面单击订阅管理。
配置报警消息的接收信息。
DataWorks支持您使用短信、邮件等多种方式接收质量校验异常的报警信息。
本文示例配置通过邮件方式接收报警消息。
后续步骤
当产出目标表数据的任务启动执行时,则会触发其关联的数据质量规则校验。您可在实例详情页查看实例状态,并单击运行日志中的DQC,查看数据质量校验过程。查看周期实例,详情请参见查看周期实例。
本文示例查看result_table
的质量报警结果。