目前数据质量支持离线的MaxCompute监控和DataHub监控,本文将为您介绍如何配置MaxCompute规则。

  • 选择MaxCompute数据源,即可显示当前数据源下所有的表。您也可以使用搜索功能,快速定位至其他数据源下查看表。
  • 选择Datahub数据源,即可显示当前数据源下所有的Topic。您也可以使用搜索功能,快速定位至其他数据源下查看Topic。

配置监控规则
单击配置监控规则,即可进入规则配置页面。
规则配置

目前数据质量规则配置包括模板规则自定义规则

说明 配置模板规则前,需首先配置分区表达式,详情请参见配置分区表达式

模板规则

您可以通过添加监控规则快捷添加2种方式创建模板规则

  • 添加监控规则
    监控规则
    配置 说明
    规则名称 请输入规则名称。
    强弱 设置强规则或弱规则:
    • 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
    • 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
    规则字段 包括表级规则和字段级规则,字段级规则包括数据类型非数据类型
    规则模板 目前共有37种规则,不支持的规则模板将不能被选择。
    您可以单击下拉框选择相关的模板,支持的模板详情请参见下表。
    支持模板
    说明 目前平均值、汇总值、最小值和最大值仅对数值型字段生效。
    比较方式 包括绝对值上升下降
    波动值比较
    • 计算波动率,您可以根据波动率计算公式计算结果。

      波动率=(样本-基准值)/基准值。

    • 计算方差波动

      (当次样本-历史N天平均值)/标准差,仅BIGINT和DOUBLE等数值类型可以使用方差。

    说明 样本和基准值的名词解释如下:
    • 样本:当天采集的具体的样本的值。例如对于SQL任务表行数,1天波动检测,则样本是当天分区的表行数。
    • 基准值:历史样本的对比值。
      • 如果规则是SQL任务表行数,1天波动检测,则基准值是前一天分区产生的表行数。
      • 如果规则是SQL任务表行数,7天平均值波动检测,则基准值是前7天的表行数据的平均值。

    您可以设置橙色阈值红色阈值,对不同严重程度的问题进行监控。

    • 如果校验值的绝对值小于或等于橙色阈值,则返回正常
    • 如果校验值的绝对值不满足第1种情况,且小于或等于红色阈值,则返回橙色报警
    • 如果校验值不满足第2种情况,则返回红色报警
    • 如果没有橙色阈值,则只有红色报警正常2种情况。
    • 如果没有红色阈值,则只有橙色报警正常2种情况。
    • 两个都不填,则红色报警(通常禁止两个阈值都不填,阈值校验会默认橙色10%,红色50%)。
    下图为报警与阻塞的实现逻辑。
    实现逻辑
  • 快捷添加
    快捷添加
    配置 说明
    规则名称 请输入规则名称。
    监控字段 包括表级规则和字段级规则,字段级规则包括数据类型非数据类型
    快捷规则 默认表行数大于0

自定义规则

如果模板规则不能满足您对分区表达式中数据质量的监控需求,您还可以通过创建自定义规则来满足个性化的监控需求。

您可以通过添加监控规则快捷添加2种方式创建自定义规则

  • 添加监控规则
    监控规则
    配置 说明
    规则名称 请输入规则名称。
    规则字段 支持表级规则自定义SQL字段级规则
    • 表级、字段级自定义规则,支持根据业务属性自定义where过滤条件。
    • 自定义SQL支持自定义SQL逻辑(单行单列输出)。
    强弱 设置强规则或弱规则:
    • 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
    • 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
    采样方式 支持countcount/table_count2种方式。
    过滤条件 例如:您需要查询业务日期下表的分区,可以将where条件设置为pt=$[yyyymmdd-1]
    过滤条件
    校检类型 支持数值型波动率型2种类型。
    比较方式 包括大于大于等于等于不等于小于小于等于6种比较方式。
    校检方式 目前支持与固定值比较
    期望值 设置期望值。
    描述 对创建的自定义规则进行描述。
  • 快捷添加

    配置 说明
    规则名称 请输入规则名称。
    规则类型 仅支持多字段重复值
    监控字段 设置监控字段。