计算线性模型的特征重要性,包括线性回归和二分类逻辑回归,支持稀疏和稠密数据格式。
组件配置
您可以使用以下任意一种方式,配置线性模型特征重要性组件参数。
方式一:可视化方式
在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签 | 参数 | 描述 |
---|---|---|
字段设置 | 选择特征列 | 输入表中,用于训练的特征列。默认选中除Label外的所有列,为可选项。 |
选择目标列 | 该参数为必选项。 单击 | |
输入表数据是否为稀疏格式 | 可选项。 | |
执行调优 | 计算核心数 | 计算的核心数,可选。 |
每个核内存大小 | 每个核的内存大小,单位为MB,可选。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name regression_feature_importance -project algo_public
-DmodelName=xlab_m_logisticregressi_20317_v0
-DoutputTableName=pai_temp_2252_20321_1
-DlabelColName=y
-DfeatureColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign
-DenableSparse=false -DinputTableName=pai_dense_10_9;
参数 | 是否必选 | 描述 | 默认值 |
---|---|---|---|
inputTableName | 是 | 输入表的表名。 | 无 |
outputTableName | 是 | 输出表的表名。 | 无 |
labelColName | 是 | 输入表的标签列名。 | 无 |
modelName | 是 | 输入的模型名称。 | 无 |
featureColNames | 否 | 输入表选择的特征列。 | 除Label外的所有列 |
inputTablePartitions | 否 | 输入表选择的分区名称。 | 选择全表 |
enableSparse | 否 | 输入表是否为稀疏格式。 | false |
itemDelimiter | 否 | 当输入表数据为稀疏格式时,KV对之间的分隔符。 | 空格 |
kvDelimiter | 否 | 当输入表数据为稀疏格式时,Key和Value之间的分隔符。 | 英文冒号(:) |
lifecycle | 否 | 输出表的生命周期。 | 不设置 |
coreNum | 否 | 核心数。 | 自动计算 |
memSizePerCore | 否 | 内存数。 | 自动计算 |
示例
- 使用SQL语句,生成训练数据。
create table if not exists pai_dense_10_9 as select age,campaign,pdays, previous, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y from bank_data limit 10;
- 构建如下实验,详情请参见算法建模。y为逻辑回归多分类组件的标签列,其它字段为特征列,其它参数使用默认值。
- 运行实验,查看预测结果。指标计算公式如下。
列名 公式 weight abs(w_) importance abs(w_j) * STD(f_i) 说明 表示特征系数的绝对值 * 训练数据的标准差。 - 运行完成后,右键单击线性模型特征重要性组件,选择查看分析报告,查看结果。