线性模型特征重要性组件用于计算线性模型的特征重要性,包括线性回归和二分类逻辑回归,支持稀疏和稠密数据格式。本文为您介绍该组件的配置方法。
使用限制
支持的计算引擎为MaxCompute。
组件配置
您可以使用以下任意一种方式,配置线性模型特征重要性组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
|
页签 |
参数 |
描述 |
|
字段设置 |
选择特征列 |
输入表中,用于训练的特征列。默认选中除标签列(例如Label)外的所有列,为可选项。 |
|
选择目标列 |
该参数为必选项。单击选择字段,选择标签列。 |
|
|
输入表数据是否为稀疏格式 |
可选项。 |
|
|
执行调优 |
计算核心数 |
计算的核心数,可选。 |
|
每个核内存大小 |
每个核的内存大小,单位为MB,可选。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name regression_feature_importance -project algo_public
-DmodelName=xlab_m_logisticregressi_20317_v0
-DoutputTableName=pai_temp_2252_20321_1
-DlabelColName=y
-DfeatureColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign
-DenableSparse=false -DinputTableName=pai_dense_10_9;
|
参数 |
是否必选 |
描述 |
默认值 |
|
inputTableName |
是 |
输入表的表名。 |
无 |
|
outputTableName |
是 |
输出表的表名。 |
无 |
|
labelColName |
是 |
输入表的标签列名。 |
无 |
|
modelName |
是 |
输入的模型名称。 |
无 |
|
featureColNames |
否 |
输入表选择的特征列。 |
除Label外的所有列 |
|
inputTablePartitions |
否 |
输入表选择的分区名称。 |
选择全表 |
|
enableSparse |
否 |
输入表是否为稀疏格式。 |
false |
|
itemDelimiter |
否 |
当输入表数据为稀疏格式时,KV对之间的分隔符。 |
空格 |
|
kvDelimiter |
否 |
当输入表数据为稀疏格式时,Key和Value之间的分隔符。 |
半角冒号(:) |
|
lifecycle |
否 |
输出表的生命周期。 |
不设置 |
|
coreNum |
否 |
核心数。 |
自动计算 |
|
memSizePerCore |
否 |
内存数。 |
自动计算 |
示例
-
使用SQL语句,生成训练数据。
create table if not exists pai_dense_10_9 as select age,campaign,pdays, previous, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, fixed_deposit from bank_data limit 10; -
构建如下工作流,并运行组件,详情请参见算法建模。连线方式:将 读数据表-1 的输出分别连接到 逻辑回归多分类 和 线性模型特征重要性 的输入,再将 逻辑回归多分类 的输出连接到 线性模型特征重要性 的输入。
-
在Designer左侧组件列表中,分别搜索读数据表组件、逻辑回归多分类组件、线性模型特征重要性组件,并拖入右侧画布中。
-
通过连线的方式,将各个节点组织构建成为一个有上下游关系的工作流。
-
配置组件参数。
-
在画布中单击读数据表-1组件,在右侧表选择页签,配置表名为bank_data。
-
在画布中单击逻辑回归多分类-1组件,在右侧字段设置页签,选择训练特征列为age、campaign、pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m和nr_employed。选择目标列为fixed_deposit。其余参数使用默认值。
-
在画布中单击线性模型特征重要性-1组件,在右侧字段设置页签,将选择目标列配置为fixed_deposit。其余参数使用默认值。
-
-
参数配置完成后,单击运行按钮
,运行工作流。
-
-
工作流运行成功后,右键单击线性模型特征重要性-1组件,在快捷菜单,选择。运行完成后,线性模型特征重要性组件的输出结果以表格形式展示各特征的 colname、weight 和 importance 值,数值以科学计数法格式呈现(如 age 的 weight 为 9.61816270808075E-5)。
指标计算公式如下。
列名
公式
weight
abs(w_)
importance
abs(w_j) * STD(f_i)
说明表示特征系数的绝对值 * 训练数据的标准差。
-
右键单击线性模型特征重要性-1组件,在快捷菜单,单击可视化分析,查看可视化分析结果。

相关文档
-
关于Designer组件更详细的内容介绍,请参见Designer概述。
-
Designer预置了多种算法组件,你可以根据不同的使用场景选择合适的组件进行数据处理,详情请参见组件参考:所有组件汇总。