给定一个分组列,分层采样算法组件按照些列的不同值,将输入数据分成不同的组,并在每组中分别进行随机采样。

组件配置

您可以使用以下任意一种方式,配置分层采样组件参数。

方式一:可视化方式

在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签 参数 描述
字段设置 分组列 选择分组列字段,分层按照此列划分。
参数设置 采样个数 取值为正整数。
采样比例 取值为浮点数,范围(0,1)
随机数种子值 系统自动生成,默认值为1234567。
执行调优 核心数 取值为正在数,默认系统自动分配。
每个核内存大小 取值为正整数,范围(1, 65536),默认系统自动分配。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本
PAI -name StratifiedSample
    -project algo_public \
    -DinputTableName="test_input" \
    -DoutputTableName="test_output" \
    -DstrataColName="label" \
    -DsampleSize="A:200,B:300,C:500" \
    -DrandomSeed=1007 \
    -Dlifecycle=30;
参数名称 是否必选 参数描述 默认值
inputTableName 输入表的名称
inputTablePartitions 输入表中,参与训练的分区。支持以下格式:
  • Partition_name=value
  • name1=value1/name2=value2:多级格式
说明 如果指定多个分区,则使用半角逗号(,)分隔。
所有分区
outputTableName 输出结果表
strataColName 层次列,即按照此列作为key分层。
sampleSize 采样个数
  • 正整数:表示每个层的采样个数。
  • 字符串:格式为strata0:n0,strata1:n1,表示每个层分别配置的采样个数。
说明
  • 当sampleSize与sampleRatio都为空时,系统会报错。
  • 当sampleSize与sampleRatio都不为空时,以sampleSize为准。
sampleRatio 采样比例
  • 数字:范围(0,1),表示每个stratum的采样比例。
  • 字符串:格式为strata0:r0,strata1:r1,表示每个层分别配置采样比例。
randomSeed 随机数种子,取值范围为正整数。 123456
lifecycle 输出表的生命周期,取值范围为[1,3650]
coreNum 计算的核心数目,取值范围为正整数。 系统自动分配
memSizePerCore 每个核心的内存(单位是MB),取值范围为(1, 65536) 系统自动分配