主成分分析(PCA)是研究如何通过少数主成分揭示多个变量间的内部结构,考察多个变量间相关性的一种多元统计方法。PCA从原始变量中导出少数主成分,使它们尽可能多地保留原始变量的信息,并且彼此间互不相关,作为新的综合指标。
使用限制
主成分分析算法实现了降维和降噪的功能,仅支持稠密数据格式。
配置组件
方式一:可视化方式
在Designer工作流页面添加主成分分析组件,并在界面右侧配置相关参数:
|
参数类型 |
参数 |
描述 |
|
字段设置 |
选择特征列 |
输入表中用于分析的列名称。 |
|
附加列 |
附加在降维数据表后的列。 |
|
|
参数设置 |
信息量比例 |
降维后数据信息占原来的比例。 |
|
特征分解方式 |
分解特征的方式,取值如下:
|
|
|
数据转换方式 |
转换为新数据的处理方式,取值如下:
|
|
|
执行调优 |
生命周期 |
指定输出表的生命周期,取值为正整数。 |
|
节点个数 |
与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。 |
|
|
单个节点内存大小 |
单位为兆。取值范围为[1024, 64*1024]的正整数。 |
方式二:PAI命令方式
使用PAI命令配置主成分分析组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name PrinCompAnalysis
-project algo_public
-DinputTableName=bank_data
-DeigOutputTableName=pai_temp_2032_17900_2
-DprincompOutputTableName=pai_temp_2032_17900_1
-DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
-DtransType=Simple
-DcalcuType=CORR
-DcontriRate=0.9;
|
参数名称 |
是否必选 |
默认值 |
参数描述 |
|
inputTableName |
是 |
无 |
进行主成分分析的输入表。 |
|
selectedColNames |
是 |
无 |
输入表中用于分析的列名称。 使用逗号分隔,支持INT和DOUBLE类型。 |
|
eigOutputTableName |
是 |
无 |
特征向量与特征值的输出表。 |
|
princompOutputTableName |
是 |
无 |
进行主成分降维降噪后的结果输出表。 |
|
transType |
否 |
Simple |
转换原表为主成分分析表的方式,取值如下:
|
|
calcuType |
否 |
CORR |
对原表进行特征分解的方式,取值如下:
|
|
contriRate |
否 |
0.9 |
数据信息降维后保留的百分比。取值范围为(0,1)。 |
|
remainColumns |
否 |
无 |
降维表保留原表的字段。 |
|
coreNum |
否 |
系统自动分配。 |
节点个数,与memSizePerCore参数配对使用。取值范围为[1, 9999]的正整数。 |
|
memSizePerCore |
否 |
系统自动分配。 |
单个节点的内存大小,单位为兆。取值范围为[1024, 64*1024]的正整数。 |
|
lifecycle |
否 |
无 |
指定输出表的生命周期,取值为正整数。 |
示例
PCA输出示例
-
降维后的数据表:PCA算法输出结果为数据表,包含 prin0、prin1、prin2、prin3 四个主成分列,每行对应一条样本经降维后的主成分数值。
-
特征值和特征向量表:该表包含4个主成分(prin0至prin3),各列展示特征向量分量(pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m、nr_employed)以及对应的eigenvalue(特征值)、contributionrate(贡献率)和sumcontributionrate(累计贡献率)。
-
降维后的数据表PCA算法输出结果为数据表,包含 prin0、prin1、prin2、prin3 四个主成分列,每行对应一条样本经降维后的主成分数值。
-
特征值和特征向量表该表包含4个主成分(prin0至prin3),各列展示特征向量分量(pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m、nr_employed)以及对应的eigenvalue(特征值)、contributionrate(贡献率)和sumcontributionrate(累计贡献率)。