数据采样

功能说明

数据采样组件是对输入的数据进行采样,只提取其中部分数据。支持随机采样、平均采样、固定间隔行数采样、固定时间周期采样、固定区域采样5种采样模式。当数据集越来越大,可以利用采样来缩减数据的大小。

计算逻辑原理

  • 随机采样:根据输入的随机数种子和给定的采样比例或行数,进行采样。

  • 平均采样:根据采样比例,间隔固定行进行采样。

  • 固定间隔行数采样:按照给定的采样行数间隔进行采样。

  • 固定时间周期采样:若指定时间列,则可以按照给定的采样时间间隔进行采样。

  • 固定区域采样:根据采样的比例或行数,选取数据表的开头部分或结尾部分数据。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

时间变量

按时间采样时,需要时间变量。建议时间格式:yyyy-mm-dd hh:mm:ss。

当采样方式为“固定时间周期采样”时,才需要配置。

时间或字符

说明

若存在非时间数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

采样变量

配置需做采样处理的变量。

不限

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

OUT端口

参数名

参数描述

是否必填

输出数据类型

输出

输出包含时间变量和采样变量。

时间变量:与输入数据类型一致

采样变量:与输入数据类型一致

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

采样模式

选择数据采样的方式。

随机采样

  • 随机采样

  • 平均采样

  • 固定间隔行数采样

  • 固定时间周期采样

  • 固定区域采样

采样数量获取方式

  • 按行数:按指定的行数进行采样。

  • 按比例:按指定的比例进行采样。

当采样模式为“随机采样”或“固定区域采样”时才需要配置。

按行数

  • 按行数

  • 按比例

采样行数

采样原始数据的行数(该值需小于等于原始数据总行数)。

当采样数量获取方式为“按行数”时才需要配置。

1

[0,

99999999]

采样比例

采样占原始数据的比例,若采样比例为0.8,就是抽取输入数据的80%。

当采样数量获取方式为“按比例”或采样模式为“平均采样”时才需要配置。

1

[0,1]

随机数种子

若为-1,指采样的数据不重复;若大于等于0,指采样的数据可重复。

当采样模式为“随机采样”时才需要配置。

-1

[-1,

99999999]

采样行数间隔

采样间隔的行数;若值为5,则每隔5行提取一行数据。

当采样模式为“固定间隔行数采样”时才需要配置。

1

[1,

99999999]

采样时间间隔

采样间隔的时间周期,注意:单位为秒;若值为5,则每隔5秒提取一行数据。

当采样模式为“固定时间周期采样”时才需要配置。

1

[1,

99999999]

采样区域

  • 头部:采样后的数据为原始数据前n条。

  • 尾部:采样后的数据为原始数据后n条。

选择采样的区域。

当采样模式为“固定区域采样”时才需要配置。

头部

  • 头部

  • 尾部

阿里云首页 工业大脑开放平台 相关技术圈