文档

列数据转向量

更新时间:

将多列数据转换为向量,最终生成的数据只包含一列。

使用限制

支持的计算引擎为MaxCompute和Flink。

算法简介

将数据格式从列数据转成Vector,数据格式必须为数值类型。

可视化配置参数

【输入桩配置】

输入桩(从左到右)

限制数据类型

建议上游组件

是否必选

数据

数值类型

读数据表

读CSV文件

【右侧参数表单】

页签

参数

描述

字段设置

算法保留列名

组件输出中需要保留的列名,默认保留所有列。

选中的列名数组

需要转换为向量的数据列名,只支持数值类型。

参数设置

向量列名

新生成向量列的列名。

解析异常处理策略

取值如下:

  • ERROR(默认值),任务抛异常退出。

  • SKIP,输出NULL。

向量长度

向量长度,默认-1。

执行调优

节点个数

与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。

单个节点内存大小,单位M

取值范围为1024 MB~64*1024 MB。

【输出桩说明】

输出桩(从左到右)

存储位置

下游建议组件

模型类型

输出结果

不需要配置

具体示例

您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。

from pyalink.alink import *

def main(sources, sinks, parameter):
    data = sources[0]
    op = ColumnsToVectorBatchOp()\
        .setSelectedCols(["f0", "f1"])\
        .setReservedCols(["row"])\
        .setVectorCol("vec")\
        .linkFrom(data)
    result = op.linkFrom(data)
    result.link(sinks[0])
    BatchOperator.execute()
  • 本页导读 (1)
文档反馈