数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。

数据质量依托DataWorks平台,为您提供全链路的数据质量方案,包括数据探查、数据对比、数据质量监控、SQL扫描和智能报警等功能。

数据质量监控可以全程监控数据加工流水线,根据质量规则及时发现问题,并通过报警通知负责人及时处理。

数据质量以数据集(DataSet)为监控对象。目前,数据质量支持MaxCompute数据表和DataHub实时数据流的监控。当MaxCompute离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量支持管理历史校验结果,您可以对数据质量进行分析和定级。

在流式数据场景下,数据质量能够基于Datahub数据通道进行监控和断流,第一时间告警给订阅用户。数据质量支持设置橙色、红色告警等级和告警频次,最大限度地减少冗余报警。

数据质量监控的流程如下图所示。
数据监控流程
说明 数据质量主要对MaxCompute和DataHub数据集的质量进行监控。因此,您需要先创建表,并在表中写入数据后,方可使用数据质量功能。

您可以通过MaxCompute客户端或DataWorks控制台创建MaxCompute表并写入数据。

数据质量管理原则请参见数据质量保障原则