文档

向量聚合

更新时间:

向量聚合组件,可以将多个数值列或者向量,聚合成一个向量。

使用限制

支持的计算引擎为MaxCompute和Flink。

算法简介

向量聚合组件,将多个数值列或者vector列转换成一个向量。

可视化配置参数

【输入桩配置】

输入桩(从左到右)

限制数据类型

建议上游组件

是否必选

数据

存储在MaxCompute或者OSS中的结构化数据

【右侧参数表单】

页签

参数

描述

字段设置

选择的列名

需要合并的列名,可以选择数值列或向量列。

算法保留列名

组件输出结果中需要保留的列。

参数设置

输出结果列列名

新生成的向量列的列名。

处理无效值的方法

取值如下:

ERROR(默认值):任务抛异常退出。

SKIP:输出NULL。

组件多线程线程个数

默认1。

执行调优

节点个数

与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。

单个节点内存大小,单位M

取值范围为1024 MB~64*1024 MB。

【输出桩说明】

输出桩(从左到右)

存储位置

下游建议组件

模型类型

数据

不需要配置

具体示例

您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。

from pyalink.alink import *

def main(sources, sinks, parameter):
    data = sources[0]
    selectedColNames = ["col2", "col3"]
    trainOp = VectorAssemblerBatchOp()\
               .setSelectedCols(selectedColNames)\
               .setOutputCol("vec")
    result = trainOp.linkFrom(data)
    result.link(sinks[0])
		BatchOperator.execute()