多表合并

本文介绍多表合并算子的使用方法及注意事项。

用途

多表合并算子可以将多张数据表按照设置的对齐字段进行数据合并。多表合并算子是两表并集算子的高级版本,满足多张数据表合并的需求。

适用场景

计算链路

计算引擎

是否支持

离线

MaxCompute

Hive

HiveStorage

RDS/MySQL

Spark

使用说明

来源节点

多表合并算子必须指定2个或者2个以上的来源节点(又称为输入节点,每个来源节点可视为一张表),以求取这些来源节点数据合并的结果。

对齐字段

指定全部来源节点的1个或者多个字段作为数据合并的对齐字段。数据合并的结果中将包含全部来源节点中的指定对齐字段的所有记录。

示例如下所示,假设三个输入节点分别为A、B、C,设置两个对齐条件为"A.ID <=> B.ID <=> C.ID"、 "A.NAME <=> B.NAME <=> C.NAME",则多表合并默认运算结果、去重合并后的运算结果如下图右侧所示。

image

快速对齐

系统提供快速填充对齐条件的辅助工具,点击快速对齐后,系统自动将来源节点中相同的字段配置为对齐字段。

输出字段

对齐字段列表将自动作为当前节点的输出字段,输出到下游节点。可以对字段名称和字段代码进行重新命名。

去重合并

多表合并算子默认不做去重合并,输出的数据包含来源节点的所有记录。勾选去重合并后,节点的输出数据将会过滤重复的记录。去重合并的效果示例参考对齐字段中的示意图。