您可以使用原始数据和随机森林模型,计算特征重要性。

组件配置

您可以使用以下任意一种方式,配置随机森林特征重要性组件参数。

方式一:可视化方式

在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签参数描述
字段设置选择特征列输入表中,用于训练的特征列。默认选中除Label外的所有列,为可选项。
选择目标列该参数为必选项。

单击目录图标,在选择字段对话框中,输入关键字搜索列,选中后单击确定

参数设置并行计算核数并行计算的核心数,可选。
每个核内存大小每个核的内存大小,单位为MB,可选。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本
pai -name feature_importance -project algo_public
    -DinputTableName=pai_dense_10_10
    -DmodelName=xlab_m_random_forests_1_20318_v0
    -DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
    -DlabelColName=y
    -DfeatureColNames="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
    -Dlifecycle=28 ;
参数名称是否必选描述默认值
inputTableName输入表的名称
outputTableName输出表的名称
labelColName输入表的标签列名
modelName输入的模型名称
featureColNames输入表选择的特征列除Label外的所有列
inputTablePartitions输入表选择的分区名称选择全表
lifecycle输出表的生命周期不设置
coreNum核心数自动计算
memSizePerCore内存数自动计算

示例

  1. 使用SQL语句,生成训练数据。
    drop table if exists pai_dense_10_10;
    create table if not exists pai_dense_10_10 as
    select
        age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y
    from  bank_data limit 10;
  2. 构建如下实验,详情请参见算法建模
    数据源为pai_dense_10_10y为随机森林的标签列,其它列为特征列。强制转换列选择agecampaign,表示将这两列作为枚举特征处理,其它使用默认参数。算法建模
  3. 运行实验,查看预测结果。结果
  4. 运行完成后,右键单击随机森林特征重要性组件,选择查看分析报告,查看结果。分析报告