数据质量帮助您第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据,影响正常使用和业务决策。同时也能显著降低问题处理的时间成本、避免任务重新运行带来的资源费用浪费。

费用说明

数据质量规则运行产生的费用由两部分组成:
  • DataWorks相关收费

    根据数据质量规则实例数进行按量收费,详情请参见:数据质量

  • 非DataWorks收费

    数据质量规则校验会产生校验SQL并下推到引擎执行,数据质量规则运行将会产生引擎费用,各引擎计费细则请参考各引擎计费文档。例如,假设您使用MaxCompute引擎按量付费模式时,数据质量规则校验将会产生MaxCompute引擎费用,此费用由MaxCompute引擎侧收取,不在DataWorks账单中体现。

功能介绍

数据质量支持对常见大数据存储(MaxCompute、E-MapReduce Hive、Hologres等)和实时数据流(Kafka、DataHub等数据通道)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务运行完成后便会触发质量规则校验,帮助您第一时间感知问题数据,按需设置规则的强弱来控制任务是否失败退出,从而避免脏数据影响扩大,有效降低数据恢复处理的时间成本和费用成本。

数据质量各模块功能介绍如下:
名称 描述
概览 数据质量概览页面为您展示数据质量报警与阻塞情况。包括:
  • 当前登录账号及当前工作空间下离线数据和流式数据的报警和阻塞情况。
  • 当前工作空间下各数据源中任务的报警与阻塞趋势图。
我的订阅 我的订阅页面为您展示当前登录账号下通过短信,邮件接收报警的数据质量校验规则。此外,数据质量还支持通过钉钉群机器人、企业微信机器人和飞书群机器人等方式发送报警信息。
规则配置 数据质量支持按表配置或按模板配置质量监控规则,详情请参见:按表配置监控规则按模板配置监控规则
任务查询 在任务查询页面您可以通过表或节点搜索表历史校验记录及校验详情。
去噪管理 去噪管理功能支持对当前工作空间某一时间内,数据质量规则校验异常的数据不触发报警,且不阻塞任务运行。
报告模板管理 报告模板管理页面支持您创建报告模板,添加规则配置和规则运行的各项指标,根据设置的统计周期、发送时间和订阅信息,定时生成并发送报告。
规则模板库 数据质量支持自建规则模板库,对通用的自定义监控规则进行统一管理,形成自建的规则模板库,帮助您提升规则配置的效率。

注意事项

  • EMR、Hologres、analyticDB for PostgreSQL、CDH在进行数据质量规则配置前,需要先进行元数据采集,详情请参见元数据采集
  • EMR、Hologres、analyticDB for PostgreSQL、CDH配置表数据质量规则后,产出表数据的调度节点需要使用独享调度资源组执行才可以正常触发数据质量规则校验。
  • 一个表可以配置多个数据质量规则。

使用场景

  • 离线检验场景
    在离线数据校验场景下,数据质量通过表配置的分区表达式来匹配节点每天产出的表分区,数据质量规则关联产出该表数据的调度节点,当任务运行完成便会触发质量规则校验,您可以设置规则的强弱来控制节点是否失败退出,从而避免脏数据影响扩大,并支持通过报警配置第一时间接收报警信息并处理。