文档

线性模型特征重要性

更新时间:

线性模型特征重要性组件用于计算线性模型的特征重要性,包括线性回归和二分类逻辑回归,支持稀疏和稠密数据格式。本文为您介绍该组件的配置方法。

使用限制

支持的计算引擎为MaxCompute。

组件配置

您可以使用以下任意一种方式,配置线性模型特征重要性组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

选择特征列

输入表中,用于训练的特征列。默认选中除标签列(例如Label)外的所有列,为可选项。

选择目标列

该参数为必选项。单击选择字段,选择标签列。

输入表数据是否为稀疏格式

可选项。

执行调优

计算核心数

计算的核心数,可选。

每个核内存大小

每个核的内存大小,单位为MB,可选。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name regression_feature_importance -project algo_public
    -DmodelName=xlab_m_logisticregressi_20317_v0
    -DoutputTableName=pai_temp_2252_20321_1
    -DlabelColName=y
    -DfeatureColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign
    -DenableSparse=false -DinputTableName=pai_dense_10_9;

参数

是否必选

描述

默认值

inputTableName

输入表的表名。

outputTableName

输出表的表名。

labelColName

输入表的标签列名。

modelName

输入的模型名称。

featureColNames

输入表选择的特征列。

除Label外的所有列

inputTablePartitions

输入表选择的分区名称。

选择全表

enableSparse

输入表是否为稀疏格式。

false

itemDelimiter

当输入表数据为稀疏格式时,KV对之间的分隔符。

空格

kvDelimiter

当输入表数据为稀疏格式时,Key和Value之间的分隔符。

半角冒号(:)

lifecycle

输出表的生命周期。

不设置

coreNum

核心数。

自动计算

memSizePerCore

内存数。

自动计算

示例

  1. 创建bank_data表,并导入表数据。具体操作,请参见创建表导入数据

  2. 使用SQL语句,生成训练数据。

    create table if not exists pai_dense_10_9 as
    select
        age,campaign,pdays, previous, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, fixed_deposit
    from  bank_data limit 10;
  3. 构建如下工作流,并运行组件,详情请参见算法建模image

    1. 在Designer左侧组件列表中,分别搜索读数据表组件、逻辑回归多分类组件、线性模型特征重要性组件,并拖入右侧画布中。

    2. 参照上图,通过连线的方式,将各个节点组织构建成为一个有上下游关系的工作流。

    3. 配置组件参数。

      • 在画布中单击读数据表-1组件,在右侧表选择页签,配置表名为bank_data。

      • 在画布中单击逻辑回归多分类-1组件,在右侧字段设置页签,选择训练特征列为age、campaign、pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m和nr_employed。选择目标列为fixed_deposit。其余参数使用默认值。

      • 在画布中单击线性模型特征重要性-1组件,在右侧字段设置页签,将选择目标列配置为fixed_deposit。其余参数使用默认值。

    4. 参数配置完成后,单击运行按钮image,运行工作流。

  4. 工作流运行成功后,右键单击线性模型特征重要性-1组件,在快捷菜单,选择查看数据 > 模型重要性表image

    指标计算公式如下。

    列名

    公式

    weight

    abs(w_)

    importance

    abs(w_j) * STD(f_i)

    说明

    表示特征系数的绝对值 * 训练数据的标准差。

  5. 右键单击线性模型特征重要性-1组件,在快捷菜单,单击可视化分析,查看可视化分析结果。image

相关文档

  • 关于Designer组件更详细的内容介绍,请参见Designer概述

  • Designer预置了多种算法组件,你可以根据不同的使用场景选择合适的组件进行数据处理,详情请参见组件参考:所有组件汇总

  • 本页导读 (1)