特征尺度变换算法组件支持对稠密或稀疏的数值类特征进行常见的尺度变换。

功能介绍

特征尺度变换的功能如下:
  • 支持常见的log2log10lnabssqrt等尺度变化函数。
  • 支持稠密及稀疏数据格式。

参数配置

PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数,如下所示:
  • 可视化方式
    页签 参数 描述
    字段设置 尺度变换特征 需要缩放的特征。
    选择标签列 如果您设置了该字段,则可以通过可视化方式查看特征到目标变量的x-y分布直方图。
    是否K:V,K:V稀疏特征 训练数据是否为稀疏格式。
    保留原变换的特征 新特征加前缀scale_
    参数设置 尺度变化函数 特征尺度变换组件支持如下尺度变化函数:
    • log2
    • log10
    • ln
    • abs
    • sqrt
  • PAI命令方式
    PAI -name fe_scale_runner -project algo_public
        -Dlifecycle=28
        -DscaleMethod=log2
        -DscaleCols=nr_employed
        -DinputTable=pai_dense_10_1
        -DoutputTable=pai_temp_2262_20380_1;
    参数名称 是否必选 参数描述 默认值
    inputTable 输入表的表名称。
    inputTablePartitions 输入表中指定参与训练的分区,格式为Partition_name=value

    如果是多级分区,格式为name1=value1/name2=value2;

    如果指定多个分区,则需要使用,隔开。

    输入表的所有分区。
    outputTable 缩放尺度后的结果表。
    scaleCols 勾选需要缩放的特征。

    系统会自动筛选稀疏特征。您只能勾选数值类特征。

    labelCol 标签字段。

    如果您设置了该字段,则可以通过可视化方式查看特征到目标变量的x-y分布直方图。

    categoryCols 将勾选的字段作为枚举特征处理,并且不支持缩放。 “”
    scaleMethod 缩放方法,取值如下:
    • log2
    • log10
    • ln
    • abs
    • sqrt
    log2
    scaleTopN 当未勾选scaleCols参数时,系统自动挑选TopN个需要缩放的特征。 10
    isSparse 是否为k:v的稀疏特征。 稠密数据
    itemSpliter 稀疏特征item的分隔符。 ,
    kvSpliter 稀疏特征item的分隔符。 :
    lifecycle 结果表的生命周期。 7
    coreNum 节点个数。取值范围为[1, 9999]的正整数。与memSizePerCore参数配对使用。 系统自动分配。
    memSizePerCore 单个节点的内存大小,单位为兆。取值范围为[2048, 64 * 1024]的正整数。 系统自动分配。

示例

  • 输入数据

    使用如下SQL生成输入数据。

    create table if not exists pai_dense_10_1 as
    select
        nr_employed
    from bank_data limit 10;
  • 参数配置
    勾选nr_employed作为尺度变化特征,并且仅支持数值类特征。尺度变化函数选择log2,如下图所示。参数配置
  • 运行结果
    nr_employed
    12.352071021075528
    12.34313018339218
    12.285286613666395
    12.316026916036957
    12.309533196497519
    12.352071021075528
    12.316026916036957
    12.316026916036957
    12.309533196497519
    12.316026916036957