本文为您介绍数据质量定义、数据资产的等级定义及实现方法。

数据质量定义

通过划分数据资产等级和分析元数据的应用链路,您可以确定哪些数据需要做质量管理。根据应用的影响程度,您可以确定数据资产等级。根据数据链路血缘,将数据资产等级上推至各数据生产加工的各个环节,确定链路上所涉及的数据的资产等级。最后,您需要在各个加工环节上根据资产等级的不同采取的不同处理方式。

数据资产等级定义

对于数据的资产等级,可根据数据质量不满足完整性、准确性、一致性、及时性后对业务的影响程度进行划分。例如划分为5个等级的性质:毁灭性质、全局性质、局部性质、一般性质、未知性质。这些性质的重要性顺序降低,具体定义如下:
  • 毁灭性质:数据一旦出错,将会引起重大资产损失,面临重大收益损失等。
  • 全局性质:数据直接或间接用于企业级业务和效果评估、重要决策等。
  • 局部性质:数据直接或间接用于某些业务线的运营、报告等,若出现问题会给业务线造成一定的影响或造成工作效率降低。
  • 一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。
  • 未知性质:无法明确数据的应用场景。

资产等级可以用Asset进行标记:毁灭性质为A1,全局性质为A2,局部性质为A3,一般性质为A4,未知性质为Ax。重要程度为:A1>A2>A3>A4>Ax。若一份数据出现在多个应用场景汇总,则根据其最高重要程度进行标记。

数据资产等级

定义并划分好数据资产等级后,需要考虑如何落地,对数仓中庞大的数据量进行资产等级打标。您可以从使用数据流转链路开始进行数据资产等级打标。

MaxCompute进行数据加工基本流程:数据从业务系统上产生,通过同步工具(DataWorks的数据集成或阿里云DTS)进入数据数仓系统(MaxCompute),数据在数仓中进行清洗、加工、整合、算法、模型等一系列运算后,再通过同步工具输出到数据产品中进行消费。整个流程数据都是以存放在表的形式体现,流转链路大致如下图所示。

在数据流转链路上,您需要整理各个表是被哪些应用业务产品消费。通过给这些应用业务产品划分数据资产等级,结合数据的上下游血缘,将整个链路打上某一类资产等级的标签。例如,一个A2等级的的数据应用产品,对应导入这个数据产品的数仓(MaxCompute)导出表Table1、Table2、Table3,几个表都打上A2-xxx数据产品标记。根据血缘往上追溯,将这几个表的上都打上A2的标记,一直标记到源数据业务系统,如图所示。

通过以上方式完成数据资产等级的确认,给不同的数据定义不同的重要程度。