数据采样
功能说明
数据采样组件是对输入的数据进行采样,只提取其中部分数据。支持随机采样、平均采样、固定间隔行数采样、固定时间周期采样、固定区域采样5种采样模式。当数据集越来越大,可以利用采样来缩减数据的大小。
计算逻辑原理
随机采样:根据输入的随机数种子和给定的采样比例或行数,进行采样。
平均采样:根据采样比例,间隔固定行进行采样。
固定间隔行数采样:按照给定的采样行数间隔进行采样。
固定时间周期采样:若指定时间列,则可以按照给定的采样时间间隔进行采样。
固定区域采样:根据采样的比例或行数,选取数据表的开头部分或结尾部分数据。
参数说明
IN端口
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
时间变量 | 按时间采样时,需要时间变量。建议时间格式:yyyy-mm-dd hh:mm:ss。 | 当采样方式为“固定时间周期采样”时,才需要配置。 | 时间或字符 说明 若存在非时间数据,则会抛出异常 |
|
采样变量 | 配置需做采样处理的变量。 | 是 | 不限 |
|
OUT端口
参数名 | 参数描述 | 是否必填 | 输出数据类型 |
输出 | 输出包含时间变量和采样变量。 | 否 | 时间变量:与输入数据类型一致 采样变量:与输入数据类型一致 |
其他参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
采样模式 | 选择数据采样的方式。 | 是 | 随机采样 |
|
采样数量获取方式 |
| 当采样模式为“随机采样”或“固定区域采样”时才需要配置。 | 按行数 |
|
采样行数 | 采样原始数据的行数(该值需小于等于原始数据总行数)。 | 当采样数量获取方式为“按行数”时才需要配置。 | 1 | [0, 99999999] |
采样比例 | 采样占原始数据的比例,若采样比例为0.8,就是抽取输入数据的80%。 | 当采样数量获取方式为“按比例”或采样模式为“平均采样”时才需要配置。 | 1 | [0,1] |
随机数种子 | 若为-1,指采样的数据不重复;若大于等于0,指采样的数据可重复。 | 当采样模式为“随机采样”时才需要配置。 | -1 | [-1, 99999999] |
采样行数间隔 | 采样间隔的行数;若值为5,则每隔5行提取一行数据。 | 当采样模式为“固定间隔行数采样”时才需要配置。 | 1 | [1, 99999999] |
采样时间间隔 | 采样间隔的时间周期,注意:单位为秒;若值为5,则每隔5秒提取一行数据。 | 当采样模式为“固定时间周期采样”时才需要配置。 | 1 | [1, 99999999] |
采样区域 |
选择采样的区域。 | 当采样模式为“固定区域采样”时才需要配置。 | 头部 |
|