本文为您介绍如何新建实时元表规则。
权限说明
超级管理员、质量管理员和资源负责人可以添加监控对象及引入实时元表资源。
超级管理员、质量管理员和质量负责人可以批量配置质量规则。
质量负责人、普通用户需具备实时元表的同步读权限,如果没有权限,则需要申请是实时元表权限,详情请参见申请、续期和交还表权限。
超级管理员、质量管理员可查看所有实时元表的质量规则。
项目成员可查看自己所加入的项目的实时元表的质量规则。
普通成员(个人)可查看数据表的质量负责人是自己的实时元表的质量规则。
特殊的,若质量规则中开启了权限限制,则优先遵循质量规则的权限限制执行。
元表规则说明
系统支持创建的实时元表规则说明如下。
规则类型 | 描述 |
统计趋势监测 | 统计趋势监测校验数据值及数据变化趋势。 |
实时多链路对比 | 在业务有强保障场景中,可以通过实时双链路或实时三链路质量规则,监测数据。如果有异常,运维人员能够及时切换或备份数据。实时多链路对比质量规则支持监控数据滞留、统计偏差等问题。 |
实时离线数据核对 | 实时数据与离线数据在使用相同统计路逻辑时,实时离线数据核对质量规则可以检测数据之间的差异。如果差异较大,可能存在数据质量的问题。 |
从不同视角查看质量规则
Dataphin支持从全局、项目、个人三个视角查看实时元表的质量规则。
全局:超级管理员、质量管理员可从全局查看所有实时元表质量规则。
项目:超级管理员、质量管理员支持切换所有项目查看实时元表质量规则,项目成员仅可选择加入该项目下的项目并查看该项目下的实时元表质量规则。
个人:超级管理员、质量管理员支持切换至任一成员查看实时元表质量规则,普通成员仅可查看质量负责人是自己的实时元表质量规则并且不支持切换。
当从项目视角查看质量规则时,筛选项不展示所属项目。
当从个人视角查看质量规则时,筛选项不展示质量负责人。
新建质量规则
在Dataphin首页,单击顶部菜单栏的资产。
按照下图操作指引,进入添加监控对象对话框。
在添加监控对象对话框,根据环境、所属项目来筛选数据表。
单击配置质量规则。
在质量规则配置页面,配置质量规则。
单击新建质量规则。
在创建质量规则对话框,配置参数。
参数
描述
规则名称
自定义质量规则的名称。
规则强度
选择质量规则的强弱:
如果您选择了强规则,则质量规则校验的结果为异常时报警,同时在有下游任务的情况下(代码检查调度、任务触发调度)会阻塞下游任务,防止污染数据扩散;如果没有下游任务(如周期质量调度),则仅告警。
如果您选择了弱规则,则质量规则校验的结果为异常时报警但不阻塞下游任务节点。
描述
自定义质量规则描述。不超过128字符。
规则模板
下拉可选择规则模板,一致性、稳定性。
一致性:包含实时离线对比和实时对链路对比。
稳定性:包含实时统计值检测。
详情请参见模板说明。
规则类型
规则类型包含系统类型和自定义类型。
系统类型和模板有关,是模板最基础的属性。
支持用户自定义模板的类型,作为说明和筛选功能。
规则配置
根据所选的规则模板进行规则配置。详情请参见实时离线对比参数说明、实时多链路对比参数说明。
异常校验
数据质量规则校验后,结果会和异常校验的配置进行对比,符合条件则校验结果为不通过;同时触发告警等后续流程。
异常校验可用指标由模板和配置内容决定,支持多种条件的and / or条件,实际配置中建议小于3条。
实时离线对比参数说明
参数
描述
校验字段
选择需要校验的字段。
指标算子
选择数据的算法。
对象形式
选择单值数据和多值数据。
时间限定条件
选择时间限定的字段。
开启条件限定
选择开启或关闭条件限定。
离线数据
下拉选择离线数据表。
离线取数
默认关闭,开启后通过SQL语句配置离线数据表的取数。
时区设置
下拉选择时区。
实时多链路对比参数说明
参数
描述
校验字段
选择需要校验的字段。
指标算子
选择数据的算法。
对象形式
选择单值数据和多值数据。
时间限定条件
选择时间限定的字段。
开启条件限定
选择开启或关闭条件限定。
对比链路数
选择质量规则的对比链路数。系统支持选择实时三链路对比和实时双链路对比。
对比链路1
选择实时元表作为对比链路数据:
如果模板选择了实时双链路对比,则只需要选择一个实时元表。
如果模板选择了实时三链路对比,则需要选择两个实时元表。
时区设置
拉选择时区。
模板说明
模板类型
模板详情分类
说明
一致性
实时离线对比
当实时数据与离线数据使用相同的统计逻辑时,用于数据的最终值差异的校验。如果差异较大,可能存在较大数据质量的问题需要进行确认和修复。
实时多链路对比
高可用场景下,需要构建多条链路,以便数据出现异常时,能够及时切换。
对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题,提升实时数据质量
稳定性
实时统计值检测
实时数据为指标值或可统计数据时,用于判断数据是否正确
可选择和固定值或者历史进行对比
单击预览SQL。
说明关键信息没有填写完整,预览SQL不可用。
左边为上次保存配置SQL预览,若未配置,则为空;右边为当前配置SQL预览。
单击确定,完成质量规则的配置。
规则配置列表
您可以在规则配置列表页面查看已经配置的元表规则信息,并进行查看、编辑、试跑、运行、删除等操作。
区域 | 描述 |
①筛选及搜索区 | 支持按照对象或者规则名称进行快捷搜索。 支持按照规则类型、规则模板、规则强度、试跑状态、生效状态进行筛选。 |
②列表区 | 为您展示规则配置列表的对象名称、规则名称、试跑状态、生效状态、规则类型、规则模板、规则强度、调度类型信息。 生效状态:建议生效规则前先进行试跑,针对试跑成功的规则开启生效状态。避免错误的规则阻塞线上任务。
|
③操作区 | 您可进行查看、克隆、编辑、试跑、运行、调度配置、删除操作。
|
④批量操作区 |
|
新建调度
规则配置调度时,可以基于该表格当前已有的调度快速进行配置(每个表上限20个调度规则)。
同一个规则最多能配置10个调度。
调度配置完全一致时,支持自动去重
单击新建调度。
在新建调度对话框,配置参数后单击确定。
参数
描述
调度名称
自定义调度名称。
调度类型
支持定时调度、代码检查触发调度和固定任务触发调度。
定时调度:按照设置的时间,周期性的对数据进行质量检测,适合数据文档产出的场景。
调度周期:包含日、周、月、小时、分钟五种周期类型。
代码检查触发调度:在每一个代码任务执行时,会检查是否修改了该规则所覆盖的表/分区;如果涉及到配置了该调度方式的表发生变更,则会开始执行质量规则。
说明适用于表的修改任务不固定/重点监控表,每次变更都需要监控的情况。
固定任务触发调度:仅在指定的任务完成后,执行配置的质量规则。支持指定SQL、离线管道、Python、Shell、Datax、Spark_jar和Hive_MR的任务类型。
说明适用于表的修改任务固定的情况。
固定任务触发只能选择生产环境任务,若规则强度配置了强规则,调度任务校验失败,可能会影响线上任务,请根据业务需求谨慎操作。
触发任务:支持选择所有任务均完成触发、任一任务完成即触发和任一任务执行前触发。
调度条件
默认关闭,开启后,在质量规则正式调度前,会先判断是否满足调度条件。满足条件才会正式调度,不满足条件则忽略本次调度。
业务日期/执行日期:若调度类型选择定时调度(定时调度不支持执行日期)、代码检查触发调度、固定任务触发调度,支持配置日期,可选择普通日历或自定义日历,如何自定义日历,请参见新建公共日历与标签。
若选择普通日历,则条件可选月份、星期、日期。例如下图:
若选择自定义日历,则条件可选日期类型、标签。例如下图:
实例类型:若调度类型选择代码检查触发调度、固定任务触发调度,支持配置实例类型,可选择周期实例、补数据实例、手动实例。例如下图:
说明至少配置一条规则。如需添加规则,请单击+添加规则按钮。
最多配置10个调度条件。
调度条件之间的关系可配置为且、或。
调度配置列表
调度创建完成后,您可在调度配置列表进行查看、编辑、克隆、删除等操作。
区域 | 描述 |
①筛选及搜索区 | 支持按照调度名称进行快捷搜索。 支持按照定时调度、代码检查触发调度、固定任务触发调度进行筛选。 |
②列表区 | 为您展示规则配置列表的调度名称、调度类型、最后更新人、最后更新时间信息。 |
③操作区 |
|
告警配置
单击告警设置,在告警配置页面,选择告警接收人及告警方式,可选择不超过5个告警接收人及不超过3个告警值班表。
如果质量规则校验的结果为异常,则告警信息会发送至告警接收人。
单击确定。
查看质量报告
单击质量报告,查看当前质量规则的规则校验概览和规则校验明细。
您可根据异常结果、分区时间、规则或对象的名称关键字快捷筛选校验明细。
单击图标,查看质量规则的规则校验详情。
单击图标,查看质量规则的执行日志。
设置质量规则权限管理
单击权限管理,指定成员查看校验记录详情、质量规则详情、质量报告。
可查看详情:可选择所有成员或仅超级管理员、质量管理员和质量负责人。
单击确定。
批量添加数据元表质量规则
批量添加质量规则支持字段级配置,便于提高规则配置效率。
按照下图操作指引,进入添加质量规则页面。
在添加质量规则页面,配置参数。
基本信息配置
参数
描述
规则名称、规则强度、描述、规则模板、规则类型
详情请参见新建质量规则。
对象筛选
需配置环境、所属项目后,单击筛选按钮筛选数据元表。
对象选择
勾选您所需配置的数据表及该数据表的字段。
单击下一步。
单击取消后,此次配置的质量规则均不添加。
规则配置
参数
描述
基准表
对象选择所勾选的数据表。基于该表的字段进行规则详情配置。例如:A表有id、name两个字段,B表有id、age两个字段,C表有name、age两个字段,以A表为基准表,id为校验字段,则B表校验通过,C表校验不通过。
规则配置、规则校验、异常归档
详情请参见新建质量规则。
单击下一步。
对象详情配置
您可查看所选数据元表的字段校验信息,也可以修改规则名称,同时,您可以单击操作列下的图标编辑该字段的规则配置和校验配置,也可以删除该字段或删除整个数据表。
完成配置后,单击添加规则。
在质量规则列表,配置调度后,单击完成,即可在数据表元规则列表页面查看。
批量添加数据元表规则列表
建议在质量规则试跑成功后,并在生效状态开启的状态下保存。
批量质量规则创建完成后,您可在规则配置列表进行查看、编辑、试跑、运行、删除等操作。
区域 | 描述 |
①筛选及搜索区 | 支持按照对象或者规则名称进行快捷搜索。 支持按照试跑失败、未试跑、未生效、未配置调度进行筛选。 |
②列表区 | 为您展示规则配置列表的对象名称、规则名称、所属数据表/所属数据板块、试跑状态、生效状态、资源负责人、质量负责人、调度方式等信息。 生效状态:建议生效规则前先进行试跑,针对试跑成功的规则开启生效状态。避免错误的规则阻塞线上任务。
|
③操作区 | 您可进行查看、编辑、调度配置、试跑、转交质量负责人、删除操作。
|
④批量操作区 |
|
实时元表规则列表
您可以在质量规则列表页面查看已经配置的实时元表规则信息,并进行查看、运行、质量负责人管理、删除等操作。
序号 | 描述 |
①筛选及搜索区 | 您可以通过筛选条件过滤需要查询的质量规则。 您可以根据我负责的、表名称、校验开关、最近一次校验状态、质量负责人、数据板块、资源负责人、所属项目条件进行精确筛选。 |
②列表区 | 为您展示表名称、校验开关、生效/总质量规则数、最近一次校验状态、质量负责人、数据源板块、所属项目实时元表质量规则详细信息,同时您可以在操作列对规则进行查看质量规则详情、运行、查看质量报告、质量负责人管理、删除的操作。
|
③批量操作区 | 您可以批量选择任务,进行运行、质量负责人管理、开启、关闭、删除、权限管理操作。
|
- 本页导读 (0)