DataWorks的数据质量监控节点可通过配置数据质量监控规则,监控相关数据源表的数据质量(例如,是否存在脏数据)。同时,支持您自定义调度策略,周期性执行监控任务进行数据校验。本文为您介绍如何使用数据质量监控节点进行任务监控。
背景信息
DataWorks的数据质量功能,帮助您感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据,影响正常使用和业务决策。同时也能显著降低问题处理的时间成本,避免任务重新运行带来的资源费用浪费,详情请参见数据质量。
使用限制
支持监控的表类型:MaxCompute、E-MapReduce、Hologres、CDH Hive、AnalyticDB PostgreSQL、AnalyticDB MySQL、StarRocks。
支持监控的表范围:
仅支持监控当前节点(即数据质量监控节点)所在工作空间绑定的数据源中的表。
每个节点仅支持监控一张表数据,但支持配置多个监控规则。不同类型的表,其监控范围如下:
非分区表:默认为全表监控。
分区表:需通过分区表达式指定监控某个分区。
说明若您需要监控多张表,请创建多个节点使用。
支持执行的操作限制:
在Data Studio创建的数据质量监控规则,仅支持在数据开发运行,并执行修改、发布等管理操作。该规则也可在数据质量模块中查看,但不能触发调度运行,不允许执行相关管理操作。
若修改数据质量监控节点中配置的监控规则,且发布节点,则该节点原来生成的监控规则会被替换。
前提条件
已绑定计算资源,且该计算资源中已创建待监控表。
执行数据质量监控任务前,您需先创建监控节点所要监控的表,详情请参见绑定计算资源(参加新版数据开发公测)、节点开发。
已创建资源组。
仅支持使用Serverless资源组运行数据质量监控节点。详情请参见资源组管理。
(可选,RAM账号需要)进行任务开发的RAM账号已被添加至对应工作空间中,并具有开发或空间管理员(权限较大,谨慎添加)角色权限。添加成员并授权,详情请参见为工作空间添加空间成员。
一、创建数据质量监控节点
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的 ,进入Data Studio。
在左侧导航栏单击
,进入数据开发,在项目目录右侧单击
,选择 ,根据界面指引,输入节点的路径、名称信息,完成节点创建。
二、配置数据质量监控规则
1、选择待监控表
在数据质量监控节点编辑页面,单击添加表,在添加表对话框按需选择需要监控的目标表(可通过更多筛选条件快速查找)。
如果此处未展示所需目标表,请前往数据地图手动刷新表元数据。
2、配置监控数据范围
非分区表:默认为全表监控,可忽略该步骤。
分区表:需选择要监控的分区数据,支持使用调度参数。单击预览即可验证分区表达式的计算结果是否正确。
3、配置数据质量监控规则
您可新建规则,也可导入已有规则使用。配置的规则默认为启用状态。
质量监控节点创建规则时支持Copilot规则推荐功能,根据您的表信息智能生成对应质量规则,您可以按需选择接受或拒绝。
智能助手(DataWorks Copilot)正在部分地域公测中,如您空间所在地域不支持,可参考下文手动新建规则或导入已有规则。
新建规则
单击新建规则,即可基于模板或自定义SQL创建数据质量监控规则,不同方式的介绍及配置详情如下。
方式一:基于系统模板创建
平台内置多种监控规则,您可基于规则模板快速创建数据质量监控规则,操作步骤如下图。
说明您也可在左侧系统模板列表,找到所需规则模板,单击+使用进行创建。
方式二:基于自定义模板创建
使用该方式之前,您需先前往创建并管理自定义规则模板。
创建自定义规则模板,才可基于该模板创建数据质量监控规则,详情请参见基于自定义模板创建数据质量规则的操作步骤如下图。
说明您也可在左侧自定义模板列表,找到所需规则模板,单击+使用进行创建。
方式三:基于自定义SQL创建
该方式支持您自定义表的数据质量校验逻辑。
导入已有规则
若待监控表在数据质量功能模块已创建相关监控规则,您可通过导入方式快速克隆相应规则;若未创建,请先前往数据质量创建,详情请参见配置规则:按表(单表)。
说明该方式支持批量导入多个规则,支持对表字段级别数据配置监控规则。
单击导入规则,您可通过规则ID/名称、规则模板、关联范围(即全表或表的某些字段)搜索并选择需导入的规则。
数据质量监控节点中创建的质量监控规则,在发布该节点后可进入数据质量模块查看规则详情,但不允许执行修改、删除等管理操作。
4、配置运行资源
用于选择执行质量规则检测所需的运行资源(即在哪个数据源中运行质量规则监控任务),默认为待监控表所在的数据源。
如选择其他数据源,需确认数据源是否拥有该表的访问权限。
三、配置检测结果处理策略
在节点编辑页面的质量监控处置区域,您可针对数据质量监控规则校验的异常结果配置处理策略及订阅方式。
异常结果类别
异常结果类别 | 说明 |
强规则 · 校验失败 |
|
强规则 · 红色异常 | |
强规则 · 橙色异常 | |
弱规则 · 校验失败 | |
弱规则 · 红色异常 | |
弱规则 · 橙色异常 |
异常结果处理策略
对于规则校验产生的异常结果,您可按需配置处理策略:
不忽略:可配置检测到某异常类别(例如,强规则出现红色异常)时,停止运行当前节点,并将节点置为失败状态。
说明当前节点运行失败后,下游节点将不执行,以此阻塞生产链路,避免问题数据污染扩散。
支持添加多种异常结果类别进行检测。
通常,当异常产生的影响较大,会阻塞下游任务执行时,可使用该策略。
忽略:忽略异常,继续执行下游节点。
异常结果订阅方式
您可配置异常结果的接收方式(例如,邮件通知),当产生异常结果时,平台会以相应方式推送异常信息,以便您及时发现并处理异常。
平台支持多种接收方式,具体请以实际界面为准。其中:
邮件、邮件和短信、电话仅支持选择当前账号下的用户作为接收人。请确认相关人员的邮箱或手机号配置正确,详情请参见查看和设置报警联系人。
其他方式需输入接收信息的Webhook地址。获取方式,请参见获取Webhook。
四、配置任务调度
如您需要周期性执行创建的节点任务,可单击节点编辑页面右侧的调度配置,根据业务需求配置该节点任务的调度信息。配置详情请参见节点调度配置。
五、调试任务
您可根据需要执行如下调试操作,查看任务是否符合预期。
(可选)选择运行资源组、赋值自定义参数取值。
单击数据质量监控节点右侧的调试配置,配置调试运行需使用的调度资源组。
若您的任务使用了调度参数,可在脚本参数区域为变量赋值,用于调试。参数赋值逻辑,详情请参见任务调试流程。
保存并运行任务。
单击顶部工具栏的
图标,保存任务;单击
图标,运行任务。
任务运行完成后,您可在节点编辑界面下方查看运行结果。若运行失败,可根据相应报错进行排查处理。
六、发布任务
节点任务配置完成后,需执行发布操作,发布后节点将根据调度配置内容进行周期性运行。
执行发布操作后,当前数据质量监控节点及节点内配置的质量规则均会被发布。
单击顶部工具栏中的
图标,保存节点。
单击顶部工具栏中的
图标,发布节点。
发布节点的详细操作,请参见节点/工作流发布。