JOIN算法通常用于数据预处理阶段,通过在一个或多个字段上匹配记录,将来自不同数据源的相关信息整合为一个数据表。这种操作类似于SQL中的JOIN语句,旨在确保合并后的数据在完整性和一致性方面准确无误,为后续的训练和分析提供可靠的数据基础。
配置组件
在Designer工作流页面添加JOIN组件,并在界面右侧配置相关参数:
参数 | 描述 |
连接类型 | 支持左连接、内连接、右连接和全连接。 |
MapJoin优化 | 将小表加载到内存中,提高运行速度。取值:
|
关联条件 | 仅支持等式,可手动添加或删除关联条件。 |
选择左表输出字段列 | 选择左表输出字段列。 |
选择右表输出字段列 | 选择右表输出字段列。 |
文档内容是否对您有帮助?