数据质量帮助您第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据,影响正常使用和业务决策。同时也能显著降低问题处理的时间成本,避免任务重新运行带来的资源费用浪费。
费用说明
数据质量规则运行产生的费用由两部分组成:
DataWorks相关收费
根据数据质量规则实例数进行按量收费,详情请参见:数据质量计费说明。
非DataWorks收费
数据质量规则校验会产生校验SQL并下推到引擎执行,数据质量规则运行将会产生引擎费用,各引擎计费细则请参考各引擎计费文档。例如,假设您使用MaxCompute引擎按量付费模式时,数据质量规则校验将会产生MaxCompute引擎费用,此费用由MaxCompute引擎侧收取,不在DataWorks账单中体现。
功能介绍
数据质量支持对常见大数据存储(MaxCompute、E-MapReduce Hive、Hologres等)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务运行完成后便会触发质量规则校验,帮助您第一时间感知问题数据,按需设置规则的强弱来控制任务是否失败退出,从而避免脏数据影响扩大,有效降低数据恢复处理的时间成本和费用成本。
数据质量各模块功能介绍如下:
名称 | 描述 |
数据质量概览页面为您展示数据质量报警与阻塞情况。包括:
| |
我的订阅页面为您展示当前登录账号下通过短信,邮件接收报警的数据质量校验规则。此外,数据质量还支持通过钉钉群机器人、企业微信机器人和飞书群机器人等方式发送报警信息。 | |
数据质量支持按表配置或按模板配置质量监控规则,详情请参见:配置规则:按表(单表)、配置规则:按模板(批量)。 | |
在任务查询页面您可以通过表或节点搜索表历史校验记录及校验详情。 | |
去噪管理功能支持对当前工作空间某一时间内,数据质量规则校验异常的数据不触发报警,且不阻塞任务运行。 | |
报告模板管理页面支持您创建报告模板,添加规则配置和规则运行的各项指标,根据设置的统计周期、发送时间和订阅信息,定时生成并发送报告。 | |
数据质量支持自建规则模板库,对通用的自定义监控规则进行统一管理,形成自建的规则模板库,帮助您提升规则配置的效率。 |
注意事项
EMR、Hologres、analyticDB for PostgreSQL、CDH在进行数据质量规则配置前,需要先进行元数据采集,详情请参见元数据采集。
EMR、Hologres、analyticDB for PostgreSQL、CDH配置表数据质量规则后,产出表数据的调度节点需要使用网络已经连通的独享调度资源组执行才可以正常触发数据质量规则校验。
一个表可以配置多个数据质量规则。
使用场景
在离线数据校验场景下,数据质量通过表配置的分区表达式来匹配节点每天产出的表分区,数据质量规则关联产出该表数据的调度节点,当任务运行完成便会触发质量规则校验,您可以设置规则的强弱来控制节点是否失败退出,从而避免脏数据影响扩大,并支持通过报警配置第一时间接收报警信息并处理。
配置规则
创建规则:数据质量支持您按表创建数据质量规则,同时,也支持您通过内置规则模板来快速为一批表批量创建数据质量规则。详情请参见:配置规则:按表(单表)、配置规则:按模板(批量)。
订阅规则:规则创建完成后,您可以通过规则订阅的方式接收数据质量规则校验报警信息,支持邮件通知、邮件和短信通知、钉钉群机器人、钉钉群机器人@ALL、飞书群机器人、企业微信机器人和自定义Webhook等方式进行报警。
说明仅DataWorks企业版版本支持使用自定义Webhook方式。
触发规则校验
在运维中心中,当表关联的调度节点运行(执行节点代码逻辑)完成后,将会触发数据质量校验(将会产生一条校验 SQL 在底层执行)。DataWorks平台将会根据数据质量规则强弱和数据质量规则校验结果决定任务是否由于质量规则校验失败而退出,并阻塞下游节点执行,防止脏数据影响范围进一步扩大。