规则配置模块是数据质量(DQC)的核心,目前数据质量支持离线的MaxCompute监控和DataHub监控,本文将为您介绍如何配置离线MaxCompute监控。

添加数据源

您需要首先进入数据集成页面添加数据源,详情请参见配置MaxCompute数据源。新建成功后,即可进入数据质量(DQC)页面进行规则的配置。

选择数据源

  1. 单击左侧导航栏的规则配置,进入规则配置页面。
  2. 选择MaxCompute,即可显示当前数据源下所有的表。

    您也可以输入对象表名(支持表名首字母模糊搜索),找到对应的表。

  3. 单击右侧的配置监控规则
    配置监控规则

配置分区表达式

数据质量用分区表达式来确定需要配置哪条规则。

说明
  • 如果您的检查对象为非分区表,则此处可填写为NOTAPARTITIONTABLE
  • 如果您的表为分区表,则可以配置为业务日期的表达式(如$[yyyymmdd]),同时也可以配置为正则表达式。
进入数据表的规则配置页面,单击左上角的+,添加分区表达式。
添加分区表达式
  • 新建分区的表达式:单击左上角的+,会弹出分区配置窗口,您可以根据自身需求编辑符合语法的分区表达式。非分区表可以直接选择推荐的分区表达式中的NOTAPARTITIONTABLE
    • 一级分区的表达式格式:分区名=分区值,分区值可以是固定值,也可以是内置参数表达式。分区表必须配置到最后一级分区。
    • 多级分区表达式格式:1级分区名=分区值/2级分区名=分区值/N级分区名=分区值,分区值可以是固定值,也可以是内置参数表达式。参数必须使用中括号表示,例如$[yyyymmdd-N]

    分区表达式周期由配置的业务日期决定,例如配置运行时间为前5天,则周期为每5天调度一次。支持的分区表达式如下表所示。

    分区表达式 说明
    dt=$[yyyymmdd-N] 代表前N天。
    dt=$[yyyymm01-1] 代表每月1日。
    dt=$[yyyymm01-Nm] 代表N月前1日。
    dt=$[yyyymmld-1] 代表每月最后一天。
    dt=$[yyyymmld-1m] 代表N月前最后一天。
    dt=$[hh24miss-1/24] 代表一个小时前。
    dt=$[hh24miss-30/24/60] 代表半个小时前。
    $[yyyymmdd] 调度日期。
    $[yyyymmdd-1] 格式为yyyymmddmiss-1,默认为当前实例运行的业务日期的前一天。
    $[yyyymmddhh24miss] 格式为yyyymmddhh24miss,当前实例运行的业务日期。
    • yyyy表示4位数年份
    • mm表示2位数月份
    • dd表示2位数天
    • hh24表示24小时制的时
    • mi表示2位数分钟
    • ss表示2位数秒
    NOTAPARTITIONTABLE 非分区表可以选择此分区表达式。
  • 推荐的分区表达式:下文将以分区名dt为例,为您介绍推荐的分区表达式。动态分区表建议使用含有正则的分区表达式。
    1. 单击输入表达式的窗口,会显示数据质量为您推荐的分区表达式。
      • 如果有符合预期的表达式,单击该行,则会自动同步到输出窗口。
      • 如果没有满足需求的分区表达式,您可以根据需求自己输入。
    2. 输入分区表达式后,单击计算。数据质量会按照当前时间(调度时间)计算出分区表达式的计算结果,以便验证分区表达式的正确性。
      计算
    3. 单击确认
  • 删除已添加分区表达式:不需要的分区表达式可以删除。如果该分区表达式已经配置有规则,删除时会删除该表达式下的所有规则。

关联调度

如果要在生产链路上监控离线数据质量,需要将数据质量关联调度。
关联调度
说明
  • 关联界面仅能找到已经提交的节点,且关联调度支持跨项目的关联。
  • 关联前,请确保您在关联的两个项目中,同时拥有管理员开发运维中至少一个角色。

数据质量的关联调度可以关联单个或多个节点任务,关联调度完成后,离线数据质量监控任务可以自动运行。

说明 数据质量的关联可以灵活配置,您关联的任务并非一定要与您的表有关系。
关联配置步骤如下:
  1. 进入运维中心 > 周期任务页面。
  2. 单击对应任务后的更多,选择配置质量监控
    配置质量监控
  3. 输入对应项目名称、生产环境的表名进行搜索。完成搜索后,单击相应分区表达式后的配置(您也可自行添加分区表达式)。
    配置

创建规则

创建规则是数据质量模块的核心内容,您可以根据表的实际需要创建规则。

目前创建规则的方式包括模板规则和自定义规则,您可以根据自身需求选择相应方式。两种规则又分为添加监控规则快捷添加两部分,详情请参见规则配置

创建完成后单击批量保存,即可将创建的所有规则保存到已建好的分区表达式。
批量保存
添加方式 配置 说明
添加监控规则 规则名称 输入规则名称。
规则字段 包括表级规则和字段级规则。字段级规则可以针对表中的具体字段配置监控规则。此处选择为表级规则,页面中其他设置项对应为表级规则配置项。
规则模板 系统内置的表级监控规则模块。
比较方式 比较方式包括绝对值上升下降三种类型。
强弱 配置规则的强弱。当勾选,任务运行时若触发红色阈值,则会将任务置为失败状态。
  • 勾选时,如果触发红色阈值,则报警且任务置为失败状态。如果触发橙色阈值,则报警且任务置为成功状态。
  • 勾选时,如果触发红色阈值,则报警且任务置为成功状态。如果触发橙色阈值,则不报警且任务置为成功状态。
波动值比较 设置波动值的橙色阈值和红色阈值。您可以通过拖动进度条来设置,也可以直接输入阈值。
描述 对配置的规则进行简单描述。
快捷添加 规则名称 输入规则名称。
监控字段 包括表级规则和字段级规则。字段级规则可以针对表中具体字段进行配置监控规则。
快捷规则
  • 选择表级规则,快捷规则仅支持表行数大于0
  • 选择字段级规则,快捷规则可以选择字段重复值字段空值

试跑

成功配置规则后,可针对某个分区表达式下所有规则进行试跑,并查看试跑的校验结果。

说明 通过试跑,可以测试规则配置的正确性、测试订阅发送渠道,它是手动运行监控规则的一种方式,您可以根据自身需求选择是否进行试跑。
  1. 选择需要试跑的调度日期,单击试跑,即可进行试跑。
    试跑
    配置 说明
    试跑分区 实际分区会随着业务日期变化而改变。如果为NOPARTITIONTABLE,则会自动添加实际分区。
    调度时间 默认为当前时间。
  2. 单击试跑成功!点击查看试跑结果,即可跳转至任务查询页面,查看校验结果。

订阅管理

订阅管理默认通知创建者,如果想通知其他用户,您可以手动添加,支持邮件通知、邮件和短信通知、钉钉群机器人和钉钉群机器人@ALL。
订阅管理

转交责任人

当责任人离职或者转岗,可以将分区表达式负责人转交给其他项目成员。默认分区表达式负责人为创建人。

当悬停在责任人上时,会在后面显示一个隐藏按钮,单击可修改责任人,输入交接人的名称,单击确认即可提交成功。
确认

更多

更多选项中包括分区操作日志、上一次校验结果和复制规则。
更多
操作 说明
分区操作日志 显示对当前分区表达式所有的规则设置的记录。
上一次校验结果 跳转到任务查询页面,查看当前分区表达式下的运行结果情况,您还可在此查看历史结果。
复制规则 可将当前设置的规则复制到目标表达式中,还可同步订阅人。