文档

主成分分析

更新时间:

本文为您介绍主成分分析组件。

功能说明

主成分分析组件可实现数据的降维处理和模型建立。在一些项目中,拿到的数据往往存在很多特征,在大数据集上进行复杂的分析和挖掘需要很长的时间,有一些特征对于结果没有意义,数据降维产生更小但保持数据完整性的新数据集,在降维后的数据集上进行分析和挖掘将更有效率。

计算逻辑原理

主成分分析(PCA):设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,是数学上处理降维的一种方法。

参数说明

IN端口-输入参数

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置需要降维处理的变量。

整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateInOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台规范开发的自定义组件。

OUT端口-输出参数

参数名

参数描述

输出数据类型

输出

输出参数与模型输出个数(即主成分数量)有关。配置规则:pca_i,i是从1到n的正整数,依次增加,n=主成分数量。例如:当主成分数量为3时,则预测输出参数有3个,分别为pca_1、pca_2、pca_3。

浮点数。

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

主成分数量

保留的主成分数量,即PCA降维后的特征维度数量,需要同时小于等于样本数、特征变量个数和目标变量个数。

2

[1,99999999]

奇异值求解器

指定奇异值分解SVD的方法。

  • 自动:自动选择一个合适的SVD算法来降维。

  • LAPACK:使用标准的LAPACK求解器。

  • ARPACK:使用ARPACK求解器。

  • 随机:随机选择求解器,一般适用于数据量大,数据维度多同时主成分数量少的PCA降维。

自动

  • 自动

  • LAPACK

  • ARPACK

  • 随机

模型结果

可查看各主成分的分析结果或发布模型。其中方差值越大,代表越是重要的主成分;方差值占总方差值的比例越大,代表越是重要的主成分。

/

/

/