Designer提供了拆分组件,用于对数据进行随机拆分以生成训练和测试集,支持按比例拆分和按阈值拆分两种拆分方式。
组件配置
您可以使用以下任意一种方式配置拆分组件参数,拆分后按照配置生成2个数据表。
方式一:可视化方式
进入Designer工作流页面,在左侧组件列表中搜索拆分组件,将其拖入画布,连接好上游节点后,单击拆分组件配置组件参数。
如果两种拆分方式均配置了参数,则按阈值拆分方式优先级高于按比例拆分。
页签 | 参数 | 描述 | |
参数设置 | 拆分方式:按比例拆分 | 切分比例 | 输出表1占原数据的比例,取值范围(0,1)。 |
随机数种子 | 随机种子数可以固定随机生成器的状态,使得在相同种子下的多次运行能够得到相同的划分结果。不配置时系统默认生成。 | ||
ID列(ID列相同的不会被拆分) | 选中高级选项时可配置。 仅支持选择单列,ID列相同的行数据不会被拆分,会被全量随机分配到输出表1或输出表2中。 | ||
拆分方式:按阈值拆分 | 阈值列 | 对该列数据按阈值拆分,不支持String列。 | |
阈值 | 对阈值列按照阈值进行全量拆分,输出表1中阈值列值均小于阈值,输出表2中的均大于或等于阈值。 | ||
执行调优 | 计算核心数 | 系统根据输入数据量,自动分配训练的实例数量。默认自动选择。 | |
每个核内存数 | 系统根据输入数据量,自动分配内存。单位为MB。默认自动选择。 |
方式二:PAI命令方式
您可以使用SQL脚本组件,取消选中是否由系统添加Create Table语句,输入如下脚本,通过PAI命令方式配置该组件参数。详情请参见SQL脚本。
PAI -name split -project algo_public
-DinputTableName=wbpc
-Doutput1TableName=wpbc_split1
-Doutput2TableName=wpbc_split2
-Dfraction=0.25;
不支持同时设置按比例拆分方式和按阈值拆分方式参数。
参数类别 | 参数名称 | 是否必填 | 参数描述 | 默认值 |
通用参数 | inputTableName | 是 | 输入表的表名。 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。支持以下格式:
说明 如果指定多个分区,则使用英文逗号(,)分隔。 | 所有分区 | |
output1TableName | 是 | 输出表1。 | 无 | |
output1TablePartition | 否 | 输出表1分区名。 | 输出表1为非分区表 | |
output2TableName | 是 | 输出表2。 | 无 | |
output2TablePartition | 否 | 输出表2分区名。 | 输出表2为非分区表 | |
lifecycle | 否 | 输出表的生命周期,取值范围为[1,3650]。 | 无 | |
coreNum | 否 | 计算核心数,属于执行调优参数。系统根据输入数据量自动分配训练的实例数量。 | 默认自动选择 | |
memSizePerCore | 否 | 每个核内存数(单位MB),属于执行调优参数。系统根据输入数据量自动分配内存,取值范围为(1, 65536)。 | 默认自动选择 | |
按比例拆分方式参数 | fraction | 是 | 切分至输出表1的数据比例,取值范围为(0,1)。 | 无 |
randomSeed | 否 | 随机数种子,取值范围为正整数。 | 系统默认生成 | |
idColName | 否 | ID列。仅支持选择单列,ID列相同的行数据不会被拆分,会被全量随机分配到输出表1或输出表2中。 | 无 | |
按阈值拆分方式参数 | thresholdColName | 是 | 阈值列。对该列数据按阈值拆分,不支持String列。 | 无 |
threshold | 是 | 阈值。对阈值列按照阈值进行全量拆分,输出表1中阈值列值均小于阈值,输出表2中的均大于或等于阈值。 | 无 |