JOIN

Map阶段进行表之间的连接,而不需要进入到Reduce阶段才进行连接。这样可以节省在Shuffle阶段时要进行的大量数据传输工作,从而达到优化作业的目的。例如,当需要连接一个大表和一个小表时,您也可以将小表加载到内存中,从而提高运行效率。

配置组件

Designer工作流页面添加JOIN组件(仅支持可视化方式配置),并在界面右侧配置相关参数:

参数

描述

连接类型

支持左连接、内连接、右连接和全连接。

MapJoin优化

将小表加载到内存中,提高运行速度。取值:

  • 不优化:正常访问不优化。

  • 优化左表:将左表作为小表加载到内存中,提高访问速度。

  • 优化右表:将右表作为小表加载到内存中,提高访问速度。

关联条件

仅支持等式,可手动添加或删除关联条件。

选择左表输出字段列

选择左表输出字段列。

选择右表输出字段列

选择右表输出字段列。