本文介绍两表交集算子的使用方法及注意事项。
用途
两表交集算子可以将两张数据表按照设置的交集条件求取交集。
适用场景
计算链路 | 计算引擎 | 是否支持 |
离线 | MaxCompute | 是 |
Hive | 是 | |
HiveStorage | 是 | |
RDS/MySQL | 是 | |
Spark | 是 |
使用说明
来源节点
两表交集算子必须指定两个来源节点(又称为输入节点,每个来源节点可视为一张表),以求取这两个来源节点的交集。
交集条件
可以分别指定两个来源节点的1个或者多个字段作为交集条件的字段,并设置这些字段的映射关系。两个来源节点的原始数据中满足这些映射关系的数据即为二者的交集,如下示意图所示。
示例如下所示,假设两个输入节点分别为A和B,设置交集条件为A.ID=B.USER_ID,交集运算结果如下图右侧所示。
输出字段
配置当前节点输出到下游节点的字段列表,默认为两个来源节点的全部字段,可按需删减。
说明
如果两个来源节点存在相同的字段code,且被同时选中作为输出字段,系统会自动将后一个字段code进行重新命名。
文档内容是否对您有帮助?