目前数据质量支持离线的MaxCompute监控和DataHub监控,本文将为您介绍如何配置MaxCompute规则。

  • 选择MaxCompute数据源,即可显示当前数据源下所有的表。您也可以使用搜索功能,快速定位至其他数据源下查看表。
  • 选择Datahub数据源,即可显示当前数据源下所有的Topic。您也可以使用搜索功能,快速定位至其他数据源下查看Topic。

配置监控规则
单击配置监控规则,即可进入规则配置页面。
规则配置

目前数据质量规则配置包括模板规则自定义规则

说明 配置模板规则前,需首先配置分区表达式,详情请参见配置分区表达式

模板规则

您可以通过添加监控规则快捷添加两种方式创建模板规则

  • 添加监控规则
    监控规则
    配置 说明
    规则名称 请输入规则名称。
    强弱 设置强规则或弱规则:
    • 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
    • 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
    规则字段 包括表级规则和字段级规则,字段级规则包括数据类型非数据类型
    规则模板 目前共有37种规则,不支持的规则模板将不能被选择。
    您可以单击下拉框选择相关的模板,支持的模板详情请参见下表。
    支持模板
    说明 目前平均值、汇总值、最小值和最大值仅对数值型字段生效。
    比较方式 包括绝对值上升下降
    波动值比较
    • 计算波动率,您可以根据波动率计算公式计算结果。

      波动率=(样本-基准值)/基准值。

    • 计算方差波动

      (当次样本-历史N天平均值)/标准差,仅BIGINT和DOUBLE等数值类型可以使用方差。

    说明 样本和基准值的名词解释如下:
    • 样本:当天采集的具体的样本的值。例如对于SQL任务表行数,1天波动检测,则样本是当天分区的表行数。
    • 基准值:历史样本的对比值。
      • 如果规则是SQL任务表行数、1天波动检测,则基准值是前1天分区产生的表行数。
      • 如果规则是SQL任务表行数、7天平均值波动检测,则基准值是前7天的表行数据的平均值。

    您可以设置橙色阈值红色阈值,对不同严重程度的问题进行监控。

    • 如果校验值的绝对值小于或等于橙色阈值,则返回正常
    • 如果校验值的绝对值不满足第1种情况,且小于或等于红色阈值,则返回橙色报警
    • 如果校验值不满足第2种情况,则返回红色报警
    • 如果没有橙色阈值,则只会出现红色报警正常两种情况。
    • 如果没有红色阈值,则只会出现橙色报警正常两种情况。
    • 两个都不填,则红色报警(通常禁止两个阈值都不填,阈值校验会默认橙色10%,红色50%)。
    下图为报警与阻塞的实现逻辑。
    实现逻辑
  • 快捷添加
    快捷添加
    配置 说明
    规则名称 请输入规则名称。
    监控字段 包括表级规则字段级规则,字段级规则可以针对表中具体字段进行配置监控规则。
    快捷规则
    • 选择表级规则,快捷规则仅支持表行数大于0
    • 选择字段级规则,快捷规则可以选择字段重复值字段空值

自定义规则

如果模板规则不能满足您对分区表达式中数据质量的监控需求,您还可以通过创建自定义规则来满足个性化的监控需求。

您可以通过添加监控规则快捷添加两种方式创建自定义规则

  • 添加监控规则

    添加监控规则时,规则字段支持表级规则自定义SQL

    • 表级规则
      监控规则
      配置 说明
      规则名称 请输入规则名称。
      规则字段 此处选择表级规则。表级自定义规则,支持根据业务属性自定义where过滤条件。
      强弱 设置强规则或弱规则:
      • 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
      • 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
      采样方式 支持countcount/table_count两种方式。
      过滤条件 例如:您需要查询业务日期下表的分区,可以将where条件设置为pt=$[yyyymmdd-1]
      过滤条件
      校检类型 支持数值型波动率型两种类型。
      比较方式
      • 如果选择校检类型数值型,则比较方式包括大于大于等于等于不等于小于小于等于
      • 如果选择校检类型波动率型,则比较方式包括绝对值上升下降
      校检方式
      • 如果选择校检类型数值型,目前仅支持与固定值比较
      • 如果选择校检类型波动率型,则校检方式包括7天平均值波动30天平均值波动1天周期比较7天周期比较30天周期比较7天方差波动30天方差波动1,7,30天波动检测上一周期比较
      期望值 如果选择校检类型数值型,需要设置期望值。
      波动值比较 如果选择校检类型波动率型,则需要设置波动值的橙色阈值和红色阈值。您可以通过拖动进度条来设置,也可以直接输入阈值。
      描述 对创建的自定义规则进行描述。
    • 自定义SQL

      配置 说明
      规则名称 请输入规则名称。
      规则字段 此处选择自定义SQL,支持自定义SQL逻辑(单行单列输出)。
      强弱 设置强规则或弱规则:
      • 如果设置强规则,红色异常报警并阻塞下游任务节点,橙色异常报警不阻塞。
      • 如果设置弱规则,红色异常报警不阻塞下游任务节点,橙色异常不报警不阻塞。
      采样方式 支持countcount/table_count两种方式。
      Set Flag 输入SQL的前置set语句。
      自定义SQL 输入完整的SQL语句,查询结果只能返回一行一列的值。
      校检类型 支持数值型波动率型两种类型。
      比较方式
      • 如果选择校检类型数值型,则比较方式包括大于大于等于等于不等于小于小于等于
      • 如果选择校检类型波动率型,则比较方式包括绝对值上升下降
      校检方式
      • 如果选择校检类型数值型,目前仅支持与固定值比较
      • 如果选择校检类型波动率型,则校检方式包括7天平均值波动30天平均值波动1天周期比较7天周期比较30天周期比较7天方差波动30天方差波动1,7,30天波动检测上一周期比较
      期望值 如果选择校检类型数值型,需要设置期望值。
      波动值比较 如果选择校检类型波动率型,则需要设置波动值的橙色阈值和红色阈值。您可以通过拖动进度条来设置,也可以直接输入阈值。
      描述 对创建的自定义规则进行描述。
  • 快捷添加
    快捷添加
    配置 说明
    规则名称 请输入规则名称。
    规则类型 仅支持多字段重复值
    监控字段 设置监控字段。