加权采样

以加权方式生成采样数据。权重列必须为DOUBLEBIGINT类型,按照该列值的大小采样。比如所选权重列的值是1.21.0,则值为1.2所属样本的被采样的概率就大一些。

组件配置

您可以使用以下任意一种方式,配置加权采样组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

参数设置

采样个数

取值为正整数。

采样比例

取值为浮点数,范围(0,1)

放回采样

默认为不放回,勾选后变为放回。

权重列

下拉框选择加权列,加权列支持DOUBLE型和BIGINT型。每个值代表所在记录出现的权重,不需要归一化。

随机数种子

默认系统自动生成。

执行调优

核心数

取值为正整数,默认系统自动分配。

核内存分配

取值为正整数,范围(1, 65536),默认系统自动分配。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name WeightedSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -DprobCol="previous"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

参数名称

是否必选

参数描述

默认值

inputTableName

输入表的名称

inputTablePartitions

输入表中,参与训练的分区。支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多级格式

说明

如果指定多个分区,则使用半角逗号(,)分隔。

所有分区

outputTableName

输出结果表

sampleSize

采样个数

说明
  • sampleSizesampleRatio都为空时,系统会报错。

  • sampleSizesampleRatio都不为空时,以sampleSize为准。

sampleRatio

采样比例,浮点数,范围(0,1)。

probCol

要加权的列,每个值代表所在记录出现的权重,不需要归一化,支持DOUBLE型和BIGINT型。

replace

是否放回,BOOLEAN类型。

false(默认不放回)

randomSeed

随机数种子,取值范围为正整数。

系统自动分配

lifecycle

输出表的生命周期,取值范围为[1,3650]

coreNum

计算的核心数目,取值范围为正整数。

系统自动分配

memSizePerCore

每个核心的内存(单位是MB),取值范围为(1, 65536)

系统自动分配