JOIN

JOIN算法通常用于数据预处理阶段,通过在一个或多个字段上匹配记录,将来自不同数据源的相关信息整合为一个数据表。这种操作类似于SQL中的JOIN语句,旨在确保合并后的数据在完整性和一致性方面准确无误,为后续的训练和分析提供可靠的数据基础。

配置组件

Designer工作流页面添加JOIN组件,并在界面右侧配置相关参数:

参数

描述

连接类型

支持左连接、内连接、右连接和全连接。

MapJoin优化

将小表加载到内存中,提高运行速度。取值:

  • 不优化:正常访问不优化。

  • 优化左表:将左表作为小表加载到内存中,提高访问速度。

  • 优化右表:将右表作为小表加载到内存中,提高访问速度。

关联条件

仅支持等式,可手动添加或删除关联条件。

选择左表输出字段列

选择左表输出字段列。

选择右表输出字段列

选择右表输出字段列。