分箱

更新时间:

一、组件说明

分箱(Binning)是一种数据预处理方法,用于将连续数据转化为离散数据。分箱的目的是为了减少异常值的影响和简化模型的复杂度,同时提高模型的稳定性和可解释性。

分箱的基本思路是将一段连续的数据划分为几个区间或者桶,然后将每个区间映射为一个离散值。分箱的方法包括等距分箱、等频分箱、最优分箱等。

组件截图

image.png

二、参数说明

参数名称

参数说明

选择分箱字段

选择需要分箱的字段。只可选择数值类特征,可多选。

标签列

选择用户分箱用的参考标签列。主要用于最优分箱类策略和woe、iv值的计算评估。

正例值

正样本标签的原值或编码值,如:>50K。

分箱方式

可选等频分箱、等距分箱、卡方分箱、自定义分箱。

  • 【等距分箱】是将连续数据划分为等距的桶,每个区间的宽度相等,例如将一个数值范围为0100的连续数据分成10个桶,每个桶的宽度为10。

  • 【等频分箱】是将连续数据划分为等频的桶,即每个桶内包含相同数量的数据样本,例如将一个数值范围为0100的连续数据分成10个桶,每个桶内包含10个样本。

  • 【卡方分箱】是最优分箱的一种,它的基本思想是根据卡方检验的统计方法对连续变量进行分箱,使得每个分箱内的样本数量大致相等,同时最小化不同分箱之间的卡方统计量。卡方分箱的具体步骤如下:

    • 将连续变量按照大小顺序排序,将其分成k个分箱。(note:基于安全加密,这里将连续变量进行等频分箱初始化,分成k个分箱)

    • 对于每个分箱,计算其相邻两个分箱之间的卡方统计量。卡方统计量越大,表示两个分箱之间的差异越显著。

    • 合并卡方统计量最小的相邻分箱,直到满足预定的停止准则。例如,可以设置卡方统计量的最大值或者分箱的最大数量。

    • 对于分箱后的每个分箱,可以计算其WOE(Weight of Evidence)和IV(Information Value)等指标,作为离散化特征的衡量标准。

卡方分箱能够自动选择最优的分箱数量和分箱方法,同时能够有效处理异常值和极端数据,提高模型的预测能力和泛化能力。

  • 【自定义分箱】用户自行确定分箱的间隔。

分箱个数

具体将连续数据分为几个区间,取值为[1, 1000]的正整数值。

分箱区间

自定义分箱专有,用于确定分箱的切分点。左开右闭,‘,’分割,如 5,12,34,39。注意:分割符为半角的逗号","。

数据转换方式

可选woe值或者索引值。索引值即为分箱之后的编号。

正样本标签值填写

字段数据类型

是否编码

是否连接配置表

正样本标签值

字符类型

原值

编码值

数值类型

原值

原值

原值

编码值

三、有配置文件可读

在上游有配置文件可以选择的时候,可以使用配置文件进行【分箱】。填充的字段、方式、映射方式和配置文件相同。举例:在训练过程中,训练数据的分箱为等频分箱,经计算,分箱取值点为[2.2,3.3]。希望用训练数据的缩放比例来填充至预测数据中,此时可以将训练时使用的配置文件,通过【读配置文件】接入到【分箱】的输入桩中,以此来保证训练数据和预测数据的一致性,如下图所示:

image.png