文档

特征离散化

更新时间:

本文为您介绍特征离散化组件。

功能说明

特征离散化组件可用于对离线数据做离散化特征处理。数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。在工业场景中,为了易于增减特征,模型更加稳定,会将连续特征离散化,并且离散化后的特征有很强的鲁棒性。

应用场景:例如:一组数据需做离散化处理,分段间隔为0.5,对数据【2.2, 2.9, 1, 1.4, 1.6, 2.7】做离散化处理后为【2.0, 3.0, 1.0, 1.5, 1.5, 2.5】

计算逻辑原理

特征离散化:有效的离散化能减少算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力,并且可以有效的克服数据中隐藏的缺陷,使模型结果更加稳定。

参数说明

IN端口-输入参数

参数名

参数描述

是否必填

输入数据类型

数据源类型

待离散化变量

需要做离散化处理的变量,输出离散化处理后的数据。仅支持处理一个变量。

整数或浮点数

说明

若存在非数值数据,则会置为NaN。

  • CSV组件。

  • IGateInOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台规范开发的自定义组件。

OUT端口-输出参数

参数名

参数描述

输出数据类型

输出

输出参数包含待离散化变量中配置的输入参数。

浮点数

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

离散化方法

  • 等间隔离散化:使离散化后的数据分成多个区间,且区间之间的间隔相同,需指定离散区间间隔。

  • 等距离散化:使离散化后的数据分成指定个数的区间,且区间的宽度相同,需指定离散区间范围以及离散区间个数。

等间隔离散化

  • 等间隔离散化

  • 等距离散化

离散化方法:等间隔离散化

参数名

参数描述

是否必填

参数默认值

参数范围

离散区间间隔

数据分段间隔。

例如:离散区间间隔为2时,离散化处理会将属性值处理成固定步长为2的数据。

1

[0,99999999]

离散化方法:等距离散化

参数名

参数描述

是否必填

参数默认值

参数范围

离散区间上限

做离散化处理的数据上限,上限必须大于下限。

注意:大于离散化区间上限的数据会被置为空。

/

[-99999999,99999999]

离散区间下限

做离散化处理的数据下限,下限必须小于上限。

注意:小于离散化区间下限的数据会被置为空。

/

[-99999999,99999999]

离散区间个数

数据分段个数。

例如:指定范围[1,10],离散区间个数为3,离散化处理会将该范围内的属性值分为三个区间,区间的值分别为1、2、3。

/

[1,99999999]

离散区间处理逻辑

数据分区时,区间之间重合的数据选择方式。

  • 左开右闭:区间范围最小值不包含,最大值包含。

  • 左闭右开:区间范围最小值包含,最大值不包含。

例如:(1,4],表示左开右闭,不包含1包含4。

左闭右开

  • 左开右闭

  • 左闭右开

  • 本页导读 (0)
文档反馈