分箱
一、组件说明
分箱(Binning)是一种数据预处理方法,用于将连续数据转化为离散数据。分箱的目的是为了减少异常值的影响和简化模型的复杂度,同时提高模型的稳定性和可解释性。
分箱的基本思路是将一段连续的数据划分为几个区间或者桶,然后将每个区间映射为一个离散值。分箱的方法包括等距分箱、等频分箱、最优分箱等。
组件截图
二、参数说明
参数名称 | 参数说明 |
选择分箱字段 | 选择需要分箱的字段。只可选择数值类特征,可多选。 |
标签列 | 选择用户分箱用的参考标签列。主要用于最优分箱类策略和woe、iv值的计算评估。 |
正例值 | 正样本标签的原值或编码值,如:>50K。 |
分箱方式 | 可选等频分箱、等距分箱、卡方分箱、自定义分箱。
卡方分箱能够自动选择最优的分箱数量和分箱方法,同时能够有效处理异常值和极端数据,提高模型的预测能力和泛化能力。
|
分箱个数 | 具体将连续数据分为几个区间,取值为[1, 1000]的正整数值。 |
分箱区间 | 自定义分箱专有,用于确定分箱的切分点。左开右闭,‘,’分割,如 5,12,34,39。注意:分割符为半角的逗号","。 |
数据转换方式 | 可选woe值或者索引值。索引值即为分箱之后的编号。 |
正样本标签值填写
字段数据类型 | 是否编码 | 是否连接配置表 | 正样本标签值 |
字符类型 | 是 | 是 | 原值 |
是 | 否 | 编码值 | |
数值类型 | 否 | 否 | 原值 |
否 | 是 | 原值 | |
是 | 是 | 原值 | |
是 | 否 | 编码值 |
三、有配置文件可读
在上游有配置文件可以选择的时候,可以使用配置文件进行【分箱】。填充的字段、方式、映射方式和配置文件相同。举例:在训练过程中,训练数据的分箱为等频分箱,经计算,分箱取值点为[2.2,3.3]。希望用训练数据的缩放比例来填充至预测数据中,此时可以将训练时使用的配置文件,通过【读配置文件】接入到【分箱】的输入桩中,以此来保证训练数据和预测数据的一致性,如下图所示: