本文为您介绍PAI-Studio提供的工具组件,包括SQL脚本和语义向量距离(双表)。

SQL脚本

您可以通过SQL脚本编辑器编写SQL语句,详细请参见SQL概述

PAI-Studio仅支持通过可视化方式,配置SQL脚本组件的参数,页面参数如下所示。
参数 描述
输入源 展示上游输入的表名。
SQL脚本 待实现功能的SQL脚本。

SQL脚本实例

  1. 将左侧组件栏中源/目标下的读数据表组件拖入画布中,并在右侧参数配置面板中配置具体的表名,如下图所示。输入表名
    • 如果输入表是分区表,则系统会自动选中分区复选框,用户可以选择或输入分区参数(系统仅支持输入单个分区)。如果未勾选分区复选框或勾选后未输入分区参数,均默认其输入为全表。
    • 如果输入表是非分区表,则分区复选框不可选中。
  2. 向画布拖入工具下的SQL脚本组件,并与读数据表组件连接。
  3. 单击画布中的SQL脚本,在页面右侧参数设置面板的SQL脚本区域,输入待实现功能的SQL脚本。输入SQL脚本SQL脚本组件的说明如下:
    • SQL脚本支持1~4个输入,1个输出。
    • 输入数据表已自动映射成t1~t4,用户可以直接调用${t1}或${t2},不用写入原表名。
    • SQL脚本的中间可以执行任意的SQL语句,但是最后一句必须为Select语句。输出表内容为该Select语句的结果。
    • 示例的SQL脚本用于统计输入表的行数。
  4. 向画布中拖入源/目标下的写数据表组件,并在右侧的表选择面板输入新表名,系统会直接创建新表,如下图所示。如果需要写入分区表,则必须预先创建待写入的分区表。写数据组件
  5. 连接所有组件后,单击画布上方的运行,如下图所示。SQL脚本实验示例
  6. 运行完成后,右键单击画布中的写数据表组件,单击查看数据即可查看写入的数据。查看写入的数据

语义向量距离(双表)

  • 组件输入
    语意向量距离组件支持双表输入,两个输入桩分别为左侧的查询表和右侧的字典表,如下面所示。语义向量距离您可以通过可视化方式,配置语义向量距离(双表)组件的参数,页面参数如下所示。
    页签 参数 描述
    字段设置 向量列 向量数值,需要将整个向量写在一个字段中,每个数值以空格分割,如下图所示。向量列示例
    ID列 作为每一列的主键。
    参数设置 距离计算方法 支持euclideancosine距离计算方法。
    最终给出的相似度最大值的个数 取值为正整数。
    执行调优 计算的核心数 计算使用的CPU Core数量,默认值为3。如果计算过程中出现OOM等情况,则适当增大计算的核心数每个核心的内存
    每个核心的内存 每个CPU Core的内存大小,单位为MB,默认值为2046 MB。如果计算过程中出现OOM等情况,则适当增大计算的核心数每个核心的内存
  • 组件输出
    输出结果为查询表对应在字典表的TopN的距离和排序,如下图所示。语义向量距离输出
  • 使用建议
    • 算法本质上是计算两个输入表的笛卡尔积距离并排序,因此建议数据量不超过千万样本。
    • 执行调优中预设置的资源较小,如果出现OOM等情况,则需要手动调大资源配置。
    • 使用Cosine距离计算时,由于Double计算存在数据误差,因此可能出现极小的负数情况,属于正常现象。