文档

特征尺度变换

更新时间:

特征尺度变换算法组件支持对稠密或稀疏的数值类特征进行常见的尺度变换。

功能介绍

特征尺度变换的功能如下:

  • 支持常见的log2log10lnabssqrt等尺度变化函数。

  • 支持稠密及稀疏数据格式。

组件配置

您可以使用以下任意一种方式,配置特征尺度变换组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

尺度变换特征

需要缩放的特征。

选择标签列

如果您设置了该字段,则可以通过可视化方式查看特征到目标变量的x-y分布直方图。

是否K:V,K:V稀疏特征

训练数据是否为稀疏格式。当数据以稀疏格式存储时,通常所有数据存储在一个字段里,而不是每个数据单独存储在一个字段里。

保留原变换的特征

新特征加前缀scale_

参数设置

尺度变化函数

特征尺度变换组件支持如下尺度变化函数:

  • log2

  • log10

  • ln

  • abs

  • sqrt

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name fe_scale_runner -project algo_public
    -Dlifecycle=28
    -DscaleMethod=log2
    -DscaleCols=nr_employed
    -DinputTable=pai_dense_10_1
    -DoutputTable=pai_temp_2262_20380_1;

参数名称

是否必选

参数描述

默认值

inputTable

输入表的表名称。

inputTablePartitions

输入表中指定参与训练的分区,格式为Partition_name=value

如果是多级分区,格式为name1=value1/name2=value2;

如果指定多个分区,则需要使用,隔开。

输入表的所有分区。

outputTable

缩放尺度后的结果表。

scaleCols

勾选需要缩放的特征。

系统会自动筛选稀疏特征。您只能勾选数值类特征。

labelCol

标签字段。

如果您设置了该字段,则可以通过可视化方式查看特征到目标变量的x-y分布直方图。

categoryCols

将勾选的字段作为枚举特征处理,并且不支持缩放。

“”

scaleMethod

缩放方法,取值如下:

  • log2

  • log10

  • ln

  • abs

  • sqrt

log2

scaleTopN

当未勾选scaleCols参数时,系统自动挑选TopN个需要缩放的特征。

10

isSparse

是否为k:v的稀疏特征。

稠密数据

itemSpliter

稀疏特征item的分隔符。

,

kvSpliter

稀疏特征item的分隔符。

:

lifecycle

结果表的生命周期。

7

coreNum

节点个数。取值范围为[1, 9999]的正整数。与memSizePerCore参数配对使用。

系统自动分配。

memSizePerCore

单个节点的内存大小,单位为兆。取值范围为[2048, 64 * 1024]的正整数。

系统自动分配。

示例

  • 输入数据

    使用如下SQL生成输入数据。

    create table if not exists pai_dense_10_1 as
    select
        nr_employed
    from bank_data limit 10;
  • 参数配置

    勾选nr_employed作为尺度变化特征,并且仅支持数值类特征。尺度变化函数选择log2,如下图所示。参数配置

  • 运行结果

    nr_employed

    12.352071021075528

    12.34313018339218

    12.285286613666395

    12.316026916036957

    12.309533196497519

    12.352071021075528

    12.316026916036957

    12.316026916036957

    12.309533196497519

    12.316026916036957