数据集拆分

本文为您介绍数据处理组件中的数据集拆分组件。

功能说明

数据集拆分组件可以根据拆分比例对输入数据集做拆分处理,输出两个变量名称相同但数据量不同的数据集。可使用数据集拆分组件将数据集拆分为两份以使用于不同的场景。支持随机拆分和前后拆分两种方式。

计算逻辑原理

  • 随机拆分:按照拆分比例随机将输入数据集拆分成两个不同的数据集。

  • 前后拆分:按照拆分比例从前往后按顺序将输入数据集拆分成两个不同的数据集。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

数据列

输入参数包含需要拆分数据并输出的变量。

不限

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

OUT1端口

参数名

参数描述

是否必填

输出

输出参数包含数据列中配置的输入参数。OUT1端口输出按照拆分比例筛选出的数据集,例如:输入数据100条,拆分比例为0.2,则OUT1端口输出数据集的数据量为20条。

OUT2端口

参数名

参数描述

是否必填

输出

输出参数包含数据列中配置的输入参数。OUT2端口输出按照拆分比例筛选后剩余的数据集,例如:输入数据100条,拆分比例为0.2,则OUT2端口输出数据集的数据量为80条。

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

拆分方式

随机拆分:就是根据指定的拆分比例随机抽取样本形成一个数据集,剩下的样本形成另一个数据集;前后拆分:就是根据指定的拆分比例将样本前面的指定部分形成一个数据集,剩下的样本形成另一个数据集。

随机拆分

  • 随机拆分

  • 前后拆分

拆分比例

数据集拆分比例,默认0.2。例如:当拆分比例设置为0.2时,则OUT1端口输出数据集数量为输入数据集总量的20%,OUT2端口输出数据集数量为输入数据集总量剩下的80%。

0.2

[0,1]

阿里云首页 工业大脑开放平台 相关技术圈