主成分分析

主成分分析(PCA)是研究如何通过少数主成分揭示多个变量间的内部结构,考察多个变量间相关性的一种多元统计方法。PCA从原始变量中导出少数主成分,使它们尽可能多地保留原始变量的信息,并且彼此间互不相关,作为新的综合指标。

使用限制

主成分分析算法实现了降维和降噪的功能,仅支持稠密数据格式。

组件配置

您可以使用以下任意一种方式,配置主成分分析组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

选择特征列

输入表中用于分析的列名称。

附加列

附加在降维数据表后的列。

参数设置

信息量比例

降维后数据信息占原来的比例。

特征分解方式

分解特征的方式,取值如下:

  • CORR

  • COVAR_SAMP

  • COVAR_POP

数据转换方式

转换为新数据的处理方式,取值如下:

  • Simple

  • Sub-Mean

  • Normalization

执行调优

生命周期

指定输出表的生命周期,取值为正整数。

节点个数

单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。

单个节点内存大小

单位为兆。取值范围为[1024, 64*1024]的正整数。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name PrinCompAnalysis
    -project algo_public
    -DinputTableName=bank_data
    -DeigOutputTableName=pai_temp_2032_17900_2
    -DprincompOutputTableName=pai_temp_2032_17900_1
    -DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
    -DtransType=Simple
    -DcalcuType=CORR
    -DcontriRate=0.9;

参数名称

是否必选

参数描述

默认值

inputTableName

进行主成分分析的输入表。

selectedColNames

输入表中用于分析的列名称。

使用逗号分隔,支持INTDOUBLE类型。

eigOutputTableName

特征向量与特征值的输出表。

princompOutputTableName

进行主成分降维降噪后的结果输出表。

transType

转换原表为主成分分析表的方式,取值如下:

  • Simple

  • Sub-Mean

  • Normalization

Simple

calcuType

对原表进行特征分解的方式,取值如下:

  • CORR

  • COVAR_SAMP

  • COVAR_POP

CORR

contriRate

数据信息降维后保留的百分比。取值范围为(0,1)

0.9

remainColumns

降维表保留原表的字段。

coreNum

节点个数,与memSizePerCore参数配对使用。取值范围为[1, 9999]的正整数。

系统自动分配。

memSizePerCore

单个节点的内存大小,单位为兆。取值范围为[1024, 64*1024]的正整数。

系统自动分配。

lifecycle

指定输出表的生命周期,取值为正整数。

示例

PCA输出示例

  • 降维后的数据表降为数据表

  • 特征值和特征向量表特征值和特征向量表