创建指标质量规则
为了提升指标质量监控的便捷性,Dataphin支持创建校验指标的质量规则。指标参与质量规则校验时,如果触发了质量监控规则,系统会给您发送告警消息,便于您及时发现并处理异常。本文为您介绍如何创建指标质量规则。
前提条件
已发布指标至生产环境。如何发布指标至生产环境,请参见管理发布任务。
权限校验
质量负责人、普通用户需具备逻辑表的字段的读权限,如果没有权限,则需要申请表权限,详情请参见申请、续期和交还表权限。
操作流程
功能 |
描述 |
选择需要创建质量规则的指标。 |
|
创建指标的质量校验规则。 |
|
配置调度时,定义数据表质量检验的分区数据必须配置分区,避免全表扫描。 |
|
添加告警信息接收人。 如果触发了质量弱监控规则,系统会给您发送告警消息,便于您及时发现并处理异常;如果触发了质量强监控规则,系统会自动中断该表所在的任务,避免脏数据流入下游,同时系统会给您发送告警消息,便于您及时发现并处理异常。 |
|
查看或确认质量规则运行结果是否正确。 |
步骤一:选择质量规则的指标
在Dataphin首页,单击顶部菜单栏的资产。
在资产页面,按照下图操作指引,进入创建质量规则对话框。
在添加质量规则对话框,选择汇总逻辑表和指标后,单击开始配置。
您也可以选择数据板块、所属项目筛选汇总逻辑表和指标。
步骤二:新建质量规则
单击新建质量规则。
在新建质量规则对话框,配置参数后,单击保存。
参数
描述
规则名称
自定义质量规则的名称。
规则强度
选择质量规则的强弱:
如果您选择了强规则,则质量规则校验的结果为异常时报警并阻塞下游任务节点。
如果您选择了弱规则,则质量规则校验的结果为异常时报警但不阻塞下游任务节点。
描述
自定义质量规则描述。不超过128字符。
模板来源
系统模板:模板内置参数可配置,适合通用的规则创建。
自定义SQL:可通过SQL灵活自定义质量监控规则,适用于灵活复杂场景。
规则模板
下拉可选择规则模板,唯一性、稳定性、自定义SQL。
唯一性:包含字段分组个数校验和字段重复值个数校验。
稳定性:包含字段稳定性校验和字段波动性校验。
自定义SQL:包含自定义统计指标校验。
详情请参见模板类型说明。
规则类型
规则类型包含系统类型和自定义类型。
系统类型和模板有关,是模板最基础的属性。
支持用户自定义模板的类型,作为说明和筛选功能。
规则配置
当规则模板选择为唯一性大类时,对应的参数如下所示。
字段分组个数校验/字段重复值个数校验:
数据过滤:填写数据过滤内容,例如:
id=12 --单表 T1.id=12 and T2.name = "张三" --双表
当规则模板选择为稳定性大类时,对应的参数如下所示。
字段稳定性校验/字段波动性校验:
统计方式:建议根据业务场景选择统计方式。
数据过滤:填写数据过滤内容,例如:
id=12 --单表 T1.id=12 and T2.name = "张三" --双表
当规则模板选择为自定义SQL大类时,对应的参数如下所示。
自定义统计指标校验:
自定义SQL:支持select查询语句,查询对象须包含主表。例如:
select sum(sale) from tableA where ds=${bizdate};
规则校验
数据质量规则校验后,结果会和异常校验的配置进行对比,符合条件则校验结果为不通过;同时触发告警等后续流程。
异常校验可用指标由模板和配置内容决定,支持多种条件的and / or条件,实际配置中建议小于3条。
详情请参见创建全域数据表规则的校验配置说明。
模板类型说明
划分
模板规则/类型
描述
表粒度
与上一周期相比表大小的波动
基准值为昨天的全表大小(Byte),比较当天的表大小,对比波动率,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。
表/分区大小1天波动检测
基准值为昨天分区下的表大小(Byte),比较当天采集的表大小,对比波动率,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。
表/分区大小7天波动检测
基准值为7天前产生的表大小(Byte),比较当天采集的表大小,对比波动率,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。
表/分区行数1,7,30,本月1号波动检测
与1天、1周、1个月前、本月1号采集的表行数进行比较,对比波动率,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。
表/分区行数1,7,30波动检测
与1天、1周、1个月前采集的表行数进行比较,对比波动率,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。
表/分区行数1天波动检测
基准值为昨天产生的分区的表行数,比较当天采集的表行数,对比波动率。
表/分区行数7天波动检测
基准值为1周前产生的分区的表行数,比较当天采集的表行数,对比波动率。
表/分区行数30天波动检测
基准值为1个月前产生的分区的表行数,比较当天采集的表行数,对比波动率。
表行数,上一周期比较
基准值为上一周期产生的分区的表行数,比较当天采集的表行数,对比差值。
表/分区行数大小7天平均波动检测
基准值是最近7天的表行数的平均值,对比最近7天平均值的波动率。
表/分区行数30天对比
基准值为30天前产生的分区的表行数,比较当天采集的表行数,对比差值。
表分区数
表分区的数量。固定值,可设置大于、小于、等于目标阈值。
表分区数波动检测
基准值为昨天产生的分区数量,比较当天采集的表分区数,对比波动率。
字段粒度
字段唯一值个数期望校验
去重后的字段COUNT数与设定的期望数字进行比较,即固定值校检。
字段唯一值1,7,30天波动检测
去重后的字段COUNT数与1天、1周、1个月前进行比较,即固定值校检。
字段平均值1,7,30天波动检测
取该字段的平均值,同1天、7天、一个月的周期进行比较,计算波动率。再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。
字段最大值1天波动检测
字段最大值,对比1天前的波动率。取该字段的最大值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段最大值1,7,30天波动检测
取该字段的最大值,同1天、7天、一个月的周期进行比较,计算波动率后,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。
字段最小值1天波动检测
字段最小值,相比1天前的波动率。
取该字段的最小值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段最小值1,7,30天波动检测
取该字段的最小值,同1天、7天、一个月的周期进行比较,计算波动率后,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。
字段汇总值1天波动检测
字段汇总值,相比1天前的波动率。 取该字段的SUM值,与前1天进行比较,计算出波动率后,再与阈值进行比较。
字段汇总值1,7,30天波动检测
取该字段的SUM值,同1天、7天、一个月的周期进行比较,计算波动率后,再与设定的阈值进行比较,只要有一个不符合规则,则触发报警。
字段空值个数
取该字段的空值数与设定的固定值进行比较。
空值率(字段空值个数/行数)
空值的个数与行总数的比率与一个固定值进行比较。
字段重复个数
重复值个数与固定值进行比较(总行数减去重后的个数,即字段重复值的个数)。
重复率(字段重复个数/总行数)
重复值个数与总行数的比率与一个固定值进行比较。
离散值监控(分组个数)
字段分组后的离散点总数。
预览SQL
说明关键信息没有填写完整,预览SQL不可用。
左边为上次保存配置SQL预览,若未配置,则为空;右边为当前配置SQL预览。
规则配置列表
您可以在规则配置列表页面查看已经配置的指标规则信息,并进行查看、编辑、试跑、运行、删除等操作。
区域
描述
①
搜索区:支持按照对象或者规则名称进行快捷搜索。
筛选区:支持按照校验开关、最近一次校验状态、指标类型、数据板块、资源负责人、所属项目进行筛选。
②
展示区:展示规则配置列表的指标名称、校验开关、生效/总质量规则数、最近一次校验状态等信息。
③
操作区:您可进行查看、克隆、编辑、试跑、运行、调度配置、删除操作。
查看:可查看规则配置详情。
克隆:可快速克隆规则。
编辑:编辑规则后,需重新试跑。
试跑:试跑后,可单击查看试跑日志。
运行:运行后,可在校验记录中查看校验结果。
调度配置:可在弹框中筛选调度类型或用调度名称快捷搜索调度。也支持编辑调度。
删除:删除此质量规则对象将删除对象下的所有质量规则,删除后不可撤销。
④
批量操作区:
如需批量试跑质量规则的指标对象,您可单击
图标试跑。
如需批量运行质量规则的指标对象,您可单击
图标运行。
如需批量配置调度指标,您可单击
图标进行配置。
如需批量开启质量规则的指标对象的生效状态,您可单击
图标选择开启。
如需批量关闭质量规则的指标对象的生效状态,您可单击
图标选择关闭。
如需批量删除质量规则的指标对象,您可单击
图标选择删除。
步骤三:新建调度
规则配置调度时,可以基于该表格当前已有的调度快速进行配置(每个表上限20个调度规则)。
同一个规则最多能配置10个调度。
调度配置完全一致时,支持自动去重。
单击新建调度。
在新建调度对话框,配置参数后单击确定。
参数
描述
调度名称
自定义调度名称。
调度方式
支持定时调度、代码检查触发调度和固定任务触发调度。
定时调度:按照设置的时间,周期性的对数据进行质量检测,适合数据文档产出的场景。
调度周期:包含日、周、月、小时、分钟五种周期类型。
代码检查触发调度:在每一个代码任务执行时,会检查是否修改了该规则所覆盖的表/分区;如果涉及到配置了该调度方式的表发生变更,则会开始执行质量规则。
说明适用于表的修改任务不固定/重点监控表,每次变更都需要监控的情况。
固定任务触发调度:仅在指定的任务完成后,执行配置的质量规则。
说明适用于表的修改任务固定的情况。
触发任务:支持选择所有任务均完成触发或任一任务完成即触发。
调度配置列表
调度创建完成后,您可在调度配置列表进行查看、编辑、克隆、删除等操作

区域 |
描述 |
① |
搜索区:支持按照调度名称进行快捷搜索。 筛选区:支持按照、代码检查触发调度、固定任务触发调度进行筛选。 |
② |
展示区:展示规则配置列表的调度名称、调度类型等信息。 |
③ |
操作区:
|
④ |
批量操作区: 如需批量删除质量规则的调度配置,您可单击 |
步骤四:设置质量规则的告警
单击告警设置,在告警设置对话框,选择告警接收人及告警方式后,单击确定。

步骤五:查看质量报告
单击质量报告,查看当前质量规则的规则校验概览和规则校验明细。
单击
图标,查看质量规则的规则校验详情。
单击
图标,查看质量规则的执行日志。

指标规则列表
您可以在质量规则列表页面查看已经配置的指标规则信息,并进行查看、运行、转交质量负责人、删除等操作。

序号 |
描述 |
① |
过滤项:您可以通过筛选条件过滤需要查询的质量规则。 您可以根据我负责的、指标名称、校验开关、最近一次校验状态、质量负责人、指标类型、数据板块、资源负责人、所属项目条件进行精确筛选。 |
② |
展示区:为您展示指标名称、校验开关、生效/总质量规则数、最近一次校验状态、质量负责人、指标类型、统计粒度、数据板块、所属项目、资源负责人指标质量规则详细信息,同时您可以在操作列对规则进行查看质量规则详情、运行、查看质量报告、转交质量负责人、删除的操作。
|
③ |
批量操作区:您可以批量选择任务,进行运行、转交、开启、关闭、删除操作。 |