特征尺度变换算法组件支持对稠密或稀疏的数值类特征进行常见的尺度变换。
功能介绍
特征尺度变换的功能如下:
-
支持常见的log2、log10、ln、abs及sqrt等尺度变化函数。
-
支持稠密及稀疏数据格式。
组件配置
您可以使用以下任意一种方式,配置特征尺度变换组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
|
页签 |
参数 |
描述 |
|
字段设置 |
尺度变换特征 |
需要缩放的特征。 |
|
选择标签列 |
如果您设置了该字段,则可以通过可视化方式查看特征到目标变量的x-y分布直方图。 |
|
|
是否K:V,K:V稀疏特征 |
训练数据是否为稀疏格式。当数据以稀疏格式存储时,通常所有数据存储在一个字段里,而不是每个数据单独存储在一个字段里。 |
|
|
保留原变换的特征 |
新特征加前缀scale_。 |
|
|
参数设置 |
尺度变化函数 |
特征尺度变换组件支持如下尺度变化函数:
|
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name fe_scale_runner -project algo_public
-Dlifecycle=28
-DscaleMethod=log2
-DscaleCols=nr_employed
-DinputTable=pai_dense_10_1
-DoutputTable=pai_temp_2262_20380_1;
|
参数名称 |
是否必选 |
参数描述 |
默认值 |
|
inputTable |
是 |
输入表的表名称。 |
无 |
|
inputTablePartitions |
否 |
输入表中指定参与训练的分区,格式为 如果是多级分区,格式为 如果指定多个分区,则需要使用,隔开。 |
输入表的所有分区。 |
|
outputTable |
是 |
缩放尺度后的结果表。 |
无 |
|
scaleCols |
是 |
勾选需要缩放的特征。 系统会自动筛选稀疏特征。您只能勾选数值类特征。 |
无 |
|
labelCol |
否 |
标签字段。 如果您设置了该字段,则可以通过可视化方式查看特征到目标变量的x-y分布直方图。 |
无 |
|
categoryCols |
否 |
将勾选的字段作为枚举特征处理,并且不支持缩放。 |
“” |
|
scaleMethod |
否 |
缩放方法,取值如下:
|
log2 |
|
scaleTopN |
否 |
当未勾选scaleCols参数时,系统自动挑选TopN个需要缩放的特征。 |
10 |
|
isSparse |
否 |
是否为k:v的稀疏特征。 |
稠密数据 |
|
itemSpliter |
否 |
稀疏特征item的分隔符。 |
, |
|
kvSpliter |
否 |
稀疏特征item的分隔符。 |
: |
|
lifecycle |
否 |
结果表的生命周期。 |
7 |
|
coreNum |
否 |
节点个数。取值范围为[1, 9999]的正整数。与memSizePerCore参数配对使用。 |
系统自动分配。 |
|
memSizePerCore |
否 |
单个节点的内存大小,单位为兆。取值范围为[2048, 64 * 1024]的正整数。 |
系统自动分配。 |
示例
-
输入数据
使用如下SQL生成输入数据。
create table if not exists pai_dense_10_1 as select nr_employed from bank_data limit 10; -
参数配置
勾选nr_employed作为尺度变化特征,并且仅支持数值类特征。尺度变化函数选择log2。
-
运行结果
nr_employed
12.352071021075528
12.34313018339218
12.285286613666395
12.316026916036957
12.309533196497519
12.352071021075528
12.316026916036957
12.316026916036957
12.309533196497519
12.316026916036957