列数据转向量

更新时间:
复制为 MD 格式

将多列数据转换为向量,最终生成的数据只包含一列。

使用限制

支持的计算引擎为MaxComputeFlink。

算法简介

将数据格式从列数据转成Vector,数据格式必须为数值类型。

可视化配置参数

【输入桩配置】

输入桩(从左到右)

限制数据类型

建议上游组件

是否必选

数据

数值类型

读数据表

CSV文件

【右侧参数表单】

页签

参数

描述

字段设置

算法保留列名

组件输出中需要保留的列名,默认保留所有列。

选中的列名数组

需要转换为向量的数据列名,只支持数值类型。

参数设置

向量列名

新生成向量列的列名。

解析异常处理策略

取值如下:

  • ERROR(默认值),任务抛异常退出。

  • SKIP,输出NULL。

向量长度

向量长度,默认-1。

执行调优

节点个数

与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。

单个节点内存大小,单位M

取值范围为1024 MB~64*1024 MB。

【输出桩说明】

输出桩(从左到右)

存储位置

下游建议组件

模型类型

输出结果

不需要配置

具体示例

您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。

from pyalink.alink import *

def main(sources, sinks, parameter):
    data = sources[0]
    op = ColumnsToVectorBatchOp()\
        .setSelectedCols(["f0", "f1"])\
        .setReservedCols(["row"])\
        .setVectorCol("vec")\
        .linkFrom(data)
    result = op.linkFrom(data)
    result.link(sinks[0])
    BatchOperator.execute()