两表差集

本文介绍两表差集算子的使用方法及注意事项。

用途

两表差集算子可以将两张数据表按照设置的差集条件求取差集。

适用场景

计算链路

计算引擎

是否支持

离线

MaxCompute

Hive

HiveStorage

RDS/MySQL

Spark

使用说明

来源节点

两表差集算子必须指定两个来源节点(又称为输入节点,每个来源节点可视为一张表),以求取这两个来源节点的差集。

差集条件

可以分别指定两个来源节点的1个或者多个字段作为差集条件的字段。差集的结果为左侧输入节点的所有数据中,差集条件字段的值不在右侧输入节点的记录集合,示意图如下所示。

差集

示例如下所示,假设两个输入节点分别为A和B,设置差集条件为"A.ID - B.ID",则差集运算结果如下图右侧所示。两表差集示例

输出字段

配置当前节点输出到下游节点的字段列表,默认为左侧来源节点的全部字段,可按需删减。