文档

拆分

更新时间:

本文为您介绍Designer提供的拆分算法。拆分是对数据进行随机拆分,用于生成训练和测试集。

组件配置

您可以使用以下任意一种方式,配置拆分组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

参数设置

拆分方式

  • 按比例拆分

  • 按阈值拆分

切分比例

取值范围为(0,1)

随机数种子

系统默认生成。

ID列(ID列相同的不会被拆分)

ID列中,内容相同的行数据不会被拆分,会被全量随机分配到输出表1输出表2中。

说明

勾选高级选项时展示,仅支持选择单列。

阈值列

选择某个列名,对该列内容按阈值拆分,不支持String列。

阈值

参考阈值列内容,配置拆分阈值。输出表1中的数据均小于阈值。输出表2中的数据均大于或等于阈值。

重要

您在使用按阈值拆分方式时,请先清空按比例拆分方式配置的切分比例字段内容。

执行调优

计算核心数

系统根据输入数据量,自动分配训练的实例数量。

每个核内存数

系统根据输入数据量,自动分配内存。单位为MB。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name split -project algo_public
    -DinputTableName=wbpc
    -Doutput1TableName=wpbc_split1
    -Doutput2TableName=wpbc_split2
    -Dfraction=0.25;

参数名称

是否必选

参数描述

默认值

inputTableName

输入表的表名。

inputTablePartitions

输入表中,参与训练的分区。支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多级格式

说明

如果指定多个分区,则使用英文逗号(,)分隔。

所有分区

output1TableName

输出结果表1。

output1TablePartition

输出结果表1分区名。

输出表1为非分区表

output2TableName

输出结果表2。

output2TablePartition

输出结果表2分区名。

输出表2为非分区表

fraction

切分至输出表1的数据比例,取值范围为(0,1)

randomSeed

随机数种子,取值范围为正整数。

系统自动分配

idColName

ID列(ID相同的数据不会被拆分)

thresholdColName

阈值所在列名,不支持String列。

threshold

阈值。

lifecycle

输出表的生命周期,取值范围为[1,3650]

coreNum

核心数量。

系统自动分配

memSizePerCore

每个核心的内存(单位是兆),取值范围为(1, 65536)

系统自动分配

  • 本页导读 (1)
文档反馈