DataWorks的数据对比节点可实现对不同表之间的数据进行多种方式的对比,并可在工作流中使用。本文为您介绍使用数据对比节点进行任务开发的主要流程。
节点介绍
数据对比节点不仅仅用于数据集成,还支持表与表之间的对比。同时,它还支持自定义对比范围以及自定义对比的指标,从而实现更多方面的数据对比。
使用限制
仅支持Serverless资源组,使用Serverless资源组可参见:新增和使用Serverless资源组。
一、新建数据对比节点
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的 ,进入Data Studio。
在左侧导航栏单击
,进入数据开发,在项目目录右侧单击
,选择 ,根据界面指引,输入节点的路径、名称信息,完成节点创建。
二、配置数据对比节点
1. 配置对比表信息
数据对比节点只需通过简单配置对比表信息,即可对不同数据源的表数据进行对比,配置详情如下:
参数 | 说明 |
资源组 | 下拉选择已有资源组。 |
任务资源占用 | 调整数据对比节点运行的资源占用量。 |
数据源类型 | 选择需要进行对比的来源表和目标表的数据源类型。 |
数据源名称 | 选择需要进行对比的来源表和目标表的数据源。 |
连通性 | 配置完成后,单击测试查看数据源是否与资源组连通。 |
表名 | 下拉选择需要对比的来源表和目标表。 |
Where筛选 | 对需要进行对比的来源表和目标表进行过滤。 说明
|
切分键 | 为来源表配置切分键,以将数据表中某一列作为切分键,建议使用主键或有索引的列作为切分键。 |
2. 配置对比规则
对比规则可以进行指标对比或全文对比,从而实现对数据的来源与目标按照不同的对比规则进行对比。
指标对比
全文对比
3. 调度配置
完成规则配置后,即可在页面右侧,单击调度配置,对数据对比节点进行调度配置,配置详情可参见:节点调度配置。
三、发布与运维
1. 发布数据对比节点
节点任务配置完成后,需执行提交发布操作,提交发布后节点将根据调度配置内容进行周期性运行。
单击顶部工具栏中的
图标,保存节点。
单击顶部工具栏中的
图标,发布节点。
发布节点的详细操作,请参见节点/工作流发布。
2. 运维数据对比节点
数据对比节点发布成功后,可在运维中心内对该节点进行运维操作,详情可参见:运维中心。
3. 查看数据校验报告
数据校验报告可在任务运行日志中查看,可通过以下方式进行查看:
运维中心查看:
单击页面左上角
按钮,选择 进入运维中心。
在运维中心左侧导航栏单击进入
查看数据对比节点生成实例,单击操作列的更多,选择查看运行日志。在日志页面单击数据对比页签即可查看。
运行日志查看:
若仅在数据开发页面对数据对比节点运行,可在数据开发页面单击下图链接,将跳转至数据校验报告页面。