主成分分析(PCA)是研究如何通过少数主成分揭示多个变量间的内部结构,考察多个变量间相关性的一种多元统计方法。PCA从原始变量中导出少数主成分,使它们尽可能多地保留原始变量的信息,并且彼此间互不相关,作为新的综合指标。

使用限制

主成分分析算法实现了降维和降噪的功能,仅支持稠密数据格式。

组件配置

您可以使用以下任意一种方式,配置主成分分析组件参数。

方式一:可视化方式

在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签 参数 描述
字段设置 选择特征列 输入表中用于分析的列名称。
附加列 附加在降维数据表后的列。
参数设置 信息量比例 降维后数据信息占原来的比例。
特征分解方式 分解特征的方式,取值如下:
  • CORR
  • COVAR_SAMP
  • COVAR_POP
数据转换方式 转换为新数据的处理方式,取值如下:
  • Simple
  • Sub-Mean
  • Normalization
执行调优 生命周期 指定输出表的生命周期,取值为正整数。
节点个数 单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。
单个节点内存大小 单位为兆。取值范围为[1024, 64*1024]的正整数。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本
PAI -name PrinCompAnalysis
    -project algo_public
    -DinputTableName=bank_data
    -DeigOutputTableName=pai_temp_2032_17900_2
    -DprincompOutputTableName=pai_temp_2032_17900_1
    -DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
    -DtransType=Simple
    -DcalcuType=CORR
    -DcontriRate=0.9;
参数名称 是否必选 参数描述 默认值
inputTableName 进行主成分分析的输入表。
selectedColNames 输入表中用于分析的列名称。

使用逗号分隔,支持INT和DOUBLE类型。

eigOutputTableName 特征向量与特征值的输出表。
princompOutputTableName 进行主成分降维降噪后的结果输出表。
transType 转换原表为主成分分析表的方式,取值如下:
  • Simple
  • Sub-Mean
  • Normalization
Simple
calcuType 对原表进行特征分解的方式,取值如下:
  • CORR
  • COVAR_SAMP
  • COVAR_POP
CORR
contriRate 数据信息降维后保留的百分比。取值范围为(0,1) 0.9
remainColumns 降维表保留原表的字段。
coreNum 节点个数,与memSizePerCore参数配对使用。取值范围为[1, 9999]的正整数。 系统自动分配。
memSizePerCore 单个节点的内存大小,单位为兆。取值范围为[1024, 64*1024]的正整数。 系统自动分配。
lifecycle 指定输出表的生命周期,取值为正整数。

示例

PCA输出示例
  • 降维后的数据表降为数据表
  • 特征值和特征向量表特征值和特征向量表