本文介绍两表差集算子的使用方法及注意事项。
用途
两表差集算子可以将两张数据表按照设置的差集条件求取差集。
适用场景
计算链路 | 计算引擎 | 是否支持 |
离线 | MaxCompute | 是 |
Hive | 否 | |
HiveStorage | 否 | |
RDS/MySQL | 否 | |
Spark | 否 |
使用说明
来源节点
两表差集算子必须指定两个来源节点(又称为输入节点,每个来源节点可视为一张表),以求取这两个来源节点的差集。
差集条件
可以分别指定两个来源节点的1个或者多个字段作为差集条件的字段。差集的结果为左侧输入节点的所有数据中,差集条件字段的值不在右侧输入节点的记录集合,示意图如下所示。
示例如下所示,假设两个输入节点分别为A和B,设置差集条件为"A.ID - B.ID",则差集运算结果如下图右侧所示。
输出字段
配置当前节点输出到下游节点的字段列表,默认为左侧来源节点的全部字段,可按需删减。
文档内容是否对您有帮助?