文档

数据质量概述

更新时间:

数据质量帮助您第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据,影响正常使用和业务决策。同时也能显著降低问题处理的时间成本,避免任务重新运行带来的资源费用浪费。

费用说明

数据质量规则运行产生的费用由两部分组成:

  • DataWorks相关收费

    根据数据质量规则实例数进行按量收费,详情请参见:数据质量计费说明

  • 非DataWorks收费

    数据质量规则校验会产生校验SQL并下推到引擎执行,数据质量规则运行将会产生引擎费用,各引擎计费细则请参考各引擎计费文档。例如,假设您使用MaxCompute引擎按量付费模式时,数据质量规则校验将会产生MaxCompute引擎费用,此费用由MaxCompute引擎侧收取,不在DataWorks账单中体现。

功能介绍

数据质量支持对常见大数据存储(MaxCompute、E-MapReduce Hive、Hologres等)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务运行完成后便会触发质量规则校验,帮助您第一时间感知问题数据,按需设置规则的强弱来控制任务是否失败退出,从而避免脏数据影响扩大,有效降低数据恢复处理的时间成本和费用成本。

数据质量各模块功能介绍如下:

名称

描述

概览

数据质量概览页面为您展示数据质量报警与阻塞情况。包括:

  • 当前登录账号及当前工作空间下离线数据和流式数据的报警和阻塞情况。

  • 当前工作空间下各数据源中任务的报警与阻塞趋势图。

我的订阅

我的订阅页面为您展示当前登录账号下通过短信,邮件接收报警的数据质量校验规则。此外,数据质量还支持通过钉钉群机器人、企业微信机器人和飞书群机器人等方式发送报警信息。

规则配置

数据质量支持按表配置或按模板配置质量监控规则,详情请参见:配置规则:按表(单表)配置规则:按模板(批量)

任务查询

在任务查询页面您可以通过表或节点搜索表历史校验记录及校验详情。

配置数据质量规则去噪

去噪管理功能支持对当前工作空间某一时间内,数据质量规则校验异常的数据不触发报警,且不阻塞任务运行。

报告模板管理

报告模板管理页面支持您创建报告模板,添加规则配置和规则运行的各项指标,根据设置的统计周期、发送时间和订阅信息,定时生成并发送报告。

规则模板库

数据质量支持自建规则模板库,对通用的自定义监控规则进行统一管理,形成自建的规则模板库,帮助您提升规则配置的效率。

注意事项

  • EMR、Hologres、analyticDB for PostgreSQL、CDH在进行数据质量规则配置前,需要先进行元数据采集,详情请参见元数据采集

  • EMR、Hologres、analyticDB for PostgreSQL、CDH配置表数据质量规则后,产出表数据的调度节点需要使用网络已经连通的独享调度资源组执行才可以正常触发数据质量规则校验。

  • 一个表可以配置多个数据质量规则。

使用场景

在离线数据校验场景下,数据质量通过表配置的分区表达式来匹配节点每天产出的表分区,数据质量规则关联产出该表数据的调度节点,当任务运行完成便会触发质量规则校验,您可以设置规则的强弱来控制节点是否失败退出,从而避免脏数据影响扩大,并支持通过报警配置第一时间接收报警信息并处理。离线场景

配置规则

  • 创建规则:数据质量支持您按表创建数据质量规则,同时,也支持您通过内置规则模板来快速为一批表批量创建数据质量规则。详情请参见:按表配置监控规则配置规则:按模板(批量)

  • 订阅规则:规则创建完成后,您可以通过规则订阅的方式接收数据质量规则校验报警信息,支持邮件通知邮件和短信通知钉钉群机器人钉钉群机器人@ALL飞书群机器人企业微信机器人自定义Webhook等方式进行报警。

    说明

    仅DataWorks企业版版本支持使用自定义Webhook方式。

触发规则校验

运维中心中,当表关联的调度节点运行(执行节点代码逻辑)完成后,将会触发数据质量校验(将会产生一条校验 SQL 在底层执行)。DataWorks平台将会根据数据质量规则强弱和数据质量规则校验结果决定任务是否由于质量规则校验失败而退出,并阻塞下游节点执行,防止脏数据影响范围进一步扩大。

查看校验结果

您可以通过运维中心节点运行日志和数据质量任务查询页面查看数据质量校验结果。

  • 通过运维中心节点运行日志查看

    1. 查看实例状态。当实例状态为质量监控校验失败时,可能是代码运行成功但节点产出的表数据不符合预期,数据质量强规则校验未通过导致任务失败退出并阻塞下游实例运行。实例状态

    2. 打开实例运行日志中的DQC日志,查看数据质量校验结果。详情请参见查看周期实例DQC日志

  • 通过数据质量任务查询界面查看。

    在任务查询界面通过表或节点搜索校验记录及校验详情。详情请参见:查看监控任务

  • 本页导读 (1)
文档反馈