文档

数据采样

更新时间:

本文为您介绍数据采样组件。

功能说明

数据采样组件是对输入的数据进行采样,只提取其中部分数据。支持随机采样、平均采样、固定间隔行数采样、固定时间周期采样、固定区域采样5种采样模式。当数据集越来越大,可以利用采样来缩减数据的大小。

计算逻辑原理

  • 随机采样:根据输入的随机数种子和给定的采样比例或行数,进行采样。

  • 平均采样:根据采样比例,间隔固定行进行采样。

  • 固定间隔行数采样:按照给定的采样行数间隔进行采样。

  • 固定时间周期采样:若指定时间变量,则可以按照给定的采样时间间隔进行采样。

  • 固定区域采样:根据采样的比例或行数,选取数据表的开头部分或结尾部分数据。

参数说明

IN端口-输入参数

参数名

参数描述

是否必填

输入数据类型

数据源类型

时间变量

按时间采样时,需要时间变量。

算法支持的输入时间格式为:

  • yyyy-mm-dd hh:mm:ss 或 mm-dd-yyyy hh:mm:ss

  • yyyy/mm/dd hh:mm:ss 或 mm/dd/yyyy hh:mm:ss

  • hh:mm:ss yyyy-mm-dd 或 hh:mm:ss mm-dd-yyyy

  • hh:mm:ss yyyy/mm/dd 或 hh:mm:ss mm/dd/yyyy

年月日和时分秒之间也可用大写T连接,例如:2023-01-11T12:01:00。

建议输入时间格式:yyyy-mm-dd hh:mm:ss。

输出时间格式为:yyyy-mm-dd hh:mm:ss。

当采样方式为“固定时间周期采样”时,才需要配置。

时间或字符

说明

若存在非时间数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

采样变量

配置需做采样处理的变量。

不限

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

OUT端口-输出参数

参数名

参数描述

输出数据类型

输出

输出包含时间变量和采样变量。

时间变量:与输入数据类型一致

采样变量:与输入数据类型一致

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

采样模式

选择数据采样的方式。

随机采样

  • 随机采样

  • 平均采样

  • 固定间隔行数采样

  • 固定时间周期采样

  • 固定区域采样

随机采样、固定区域采样

参数名

参数描述

是否必填

参数默认值

参数范围

采样数量获取方式

  • 按行数:按指定的行数进行采样。

  • 按比例:按指定的比例进行采样。

按行数

  • 按行数

  • 按比例

随机采样-按行数、固定区域采样-按行数

参数名

参数描述

是否必填

参数默认值

参数范围

采样行数

采样原始数据的行数(该值需小于等于原始数据总行数)。

1

[0,

99999999]

随机采样-按比例、固定区域采样-按比例、平均采样

参数名

参数描述

是否必填

参数默认值

参数范围

采样比例

采样占原始数据的比例,若采样比例为0.8,就是抽取输入数据的80%。

1

[0,1]

随机采样

参数名

参数描述

是否必填

参数默认值

参数范围

随机数种子

若为-1,指采样的数据不重复;若大于等于0,指采样的数据可重复。

-1

[-1,

99999999]

固定间隔行数采样

参数名

参数描述

是否必填

参数默认值

参数范围

采样行数间隔

采样间隔的行数;若值为5,则每隔5行提取一行数据。

1

[1,

99999999]

固定时间周期采样

参数名

参数描述

是否必填

参数默认值

参数范围

采样时间间隔

采样间隔的时间周期,注意:单位为秒;若值为5,则每隔5秒提取一行数据。

1

[1,

99999999]

固定区域采样

参数名

参数描述

是否必填

参数默认值

参数范围

采样区域

  • 头部:采样后的数据为原始数据前n条。

  • 尾部:采样后的数据为原始数据后n条。

选择采样的区域。

头部

  • 头部

  • 尾部

  • 本页导读 (0)