数据质量评估标准

不同行业有不同的评估数据质量的标准。对于MaxCompute,数据质量可以从完整性、准确性、一致性和及时性四个角度进行评估。

  • 完整性

    完整性是指数据的记录和信息是否完整,是否存在数据缺失情况。数据缺失主要包括记录的缺失和具体某个字段信息的缺失,两者都会造成统计结果不准确。

    完整性是数据质量最基础的保障。例如,某个稳定业务的数据量每天约为100万条记录,某天突然下降了1万条,则可能是出现了记录缺失;某科高考成绩表中,每个考卷分数都对应一个准考证号,当准考证号字段的空值数大于0时,则可能是出现了信息缺失。

  • 准确性

    准确性是指数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。例如,成绩单中分数出现负数或订单中出现错误的买家信息等,这些都是准确性不好的数据。确保记录的准确性也是保证数据质量必不可少的一部分。

  • 一致性

    一致性通常体现在跨度很大的数据仓库中。 例如,某公司有很多业务数仓分支,对于同一份数据,在不同的数仓分支中必须保证一致性。从在线业务库加工到数据仓库,再到各个数据应用节点,用户ID必须保持同一种类型,且长度也要保持一致。因此,您需要设计数仓的公共层以确保数据的一致性,详情请参见CDM公共维度层设计规范

  • 及时性

    保障数据的及时产出才能体现数据的价值。例如,决策分析师通常希望当天就可以看到前一天的数据。如果等待时间过长,数据失去了及时性的价值,数据分析工作将失去意义。