向量聚合是一种用于降维和特征提取的机器学习算法,旨在通过将高维数据表示为低维向量来简化数据处理。该算法通常通过对输入向量进行某种数学变换,将其表示为一个固定长度的向量,以便于后续的分类或聚类任务。向量聚合在自然语言处理和推荐系统中应用广泛,有助于提高模型的计算效率和准确性。
使用限制
支持的计算引擎为MaxCompute和Flink。
可视化配置参数
输入桩
输入桩(从左到右) | 限制数据类型 | 建议上游组件 | 是否必选 |
数据 | 存储在MaxCompute或者OSS中的结构化数据 | 无 | 是 |
参数配置
页签 | 参数 | 描述 |
字段设置 | 选择的列名 | 需要合并的列名,可以选择数值列或向量列。 |
算法保留列名 | 组件输出结果中需要保留的列。 | |
参数设置 | 输出结果列列名 | 新生成的向量列的列名。 |
处理无效值的方法 | 取值如下: ERROR(默认值):任务抛异常退出。 SKIP:输出NULL。 | |
组件多线程线程个数 | 默认1。 | |
执行调优 | 节点个数 | 与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。 |
单个节点内存大小,单位M | 取值范围为1024 MB~64*1024 MB。 |
输出桩
输出桩(从左到右) | 存储位置 | 下游建议组件 | 模型类型 |
数据 | 不需要配置 | 无 | 无 |
具体示例
您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
data = sources[0]
selectedColNames = ["col2", "col3"]
trainOp = VectorAssemblerBatchOp()\
.setSelectedCols(selectedColNames)\
.setOutputCol("vec")
result = trainOp.linkFrom(data)
result.link(sinks[0])
BatchOperator.execute()
该文章对您有帮助吗?