DataWorks数据质量(DQC)是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。

DataWorks数据质量依托DataWorks平台,为您提供全链路的数据质量方案,包括数据探查、数据对比、数据质量监控、SQL扫描和智能报警等功能。

数据质量监控可全程监控数据加工流水线,根据质量规则及时发现问题,通过报警通知负责人及时处理。

数据质量以数据集(DataSet)为监控对象。目前,数据质量支持MaxCompute数据表和DataHub实时数据流的监控。当MaxCompute离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供了历史校验结果的管理,以便您对数据质量进行分析和定级。

在流式数据场景下,数据质量能够基于Datahub数据通道进行监控和断流,第一时间告警给订阅用户。数据质量还支持橙色、红色告警等级以及告警频次的设置,最大限度地减少冗余报警。

数据质量监控的流程如下图所示。
说明 关于数据质量管理原则,请参见数据质量保障原则


说明 数据质量主要对MaxCompute和DataHub数据集的质量进行监控。因此,您需要先创建表,并在表中写入数据后才能使用数据质量功能。

您可以通过MaxCompute客户端或DataWorks控制台创建MaxCompute表并写入数据。