本文为您介绍如何使用分箱组件进行连续特征离散化。
背景信息
特征离散是将连续的数据进行分段,使其变为多个离散化区间。针对该场景,PAI推出了分箱组件,支持等频分箱、等宽分箱及自动分箱。
本文首先使用读数据表组件,读取公共数据表pai_online_project.iris_data。然后使用分箱组件生成离散数据。最后使用数据转换模块将原始数据从连续值转换为离散值。
操作步骤
- 进入PAI-Designer页面。
- 登录PAI控制台。
- 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
- 在工作空间页面的左侧导航栏选择 ,进入Designer页面。
- 创建空白工作流,并进入工作流,详情请参见新建自定义工作流。其中:
- 工作流名称:配置为基于分箱组件实现连续特征离散化。
- 描述:配置为使用PAI提供的分箱组件,实现连续特征离散化。
- 可见范围:选择仅自己可见。
- 构建实验流程。
- 在左侧组件列表,将源/目标下的读数据表组件拖入画布中。
- 在左侧组件列表,将金融板块下的分箱和数据转换模块组件拖入画布中。
- 将以上组件拼接为如下实验。
- 配置组件参数。
- 单击画布上方的运行。
- 查看实验结果。
- 实验运行结束后,右键单击画布中的数据转换模块组件,在快捷菜单,单击 ,即可查看离散化结果。
- 右键单击画布中的分箱组件,在快捷菜单,单击我要分箱。
- 单击待查看特征(以f1特征列为例)名称,即可查看该特征的分箱详情,如下图所示。
- 单击图表页签,以图表的形式查看分箱结果。
- 实验运行结束后,右键单击画布中的数据转换模块组件,在快捷菜单,单击 ,即可查看离散化结果。