阿里云首页 工业大脑开放平台

数据降维(PCA)

功能说明

数据降维(PCA)组件可实现数据的降维处理,在一些项目中,拿到的数据往往存在很多特征,在大数据集上进行复杂的分析和挖掘需要很长的时间,有一些特征对于结果没有意义,数据降维产生更小但保持数据完整性的新数据集,在降维后的数据集上进行分析和挖掘将更有效率。

计算逻辑原理

主成分分析(PCA):设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,是数学上处理降维的一种方法。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

保留列

配置不需要降维处理的变量,原样输出。

不限

  • csv组件

  • igateoffline组件

  • 平台其他数据处理组件

  • 按照平台组件开发的自定义组件

特征列

配置需要降维处理的变量。

整数或浮点数

说明

若存在非数值数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

OUT端口

参数名

参数描述

是否必填

输出数据类型

输出

输出参数与模型输出个数(即主成分数量)有关。配置规则:pca_i,i是从1到n的正整数,依次增加,n=主成分数量。例如:当主成分数量为3时,则预测输出参数有3个,分别为pca_1、pca_2、pca_3。

保留列:与输入数据类型一致

特征列:浮点数

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

主成分数量

保留的主成分数量,即PCA降维后的特征维度数量,需要同时小于等于样本数、特征变量个数和目标变量个数。

2

[1,99999999]

奇异值求解器

指定奇异值分解SVD的方法。

自动:自动选择一个合适的SVD算法来降维;

LAPACK:使用标准的LAPACK求解器;ARPACK:使用ARPACK求解器;

随机:随机选择求解器,一般适用于数据量大,数据维度多同时主成分数量少的PCA降维。

自动

  • 自动

  • LAPACK

  • ARPACK

  • 随机