本文为您介绍如何使用分箱组件进行连续特征离散化。

背景信息

特征离散是将连续的数据进行分段,使其变为多个离散化区间。针对该场景,PAI推出了分箱组件,支持等频分箱、等宽分箱及自动分箱。

本文首先使用读数据表组件,读取公共数据表pai_online_project.iris_data。然后使用分箱组件生成离散数据。最后使用数据转换模块将原始数据从连续值转换为离散值。

操作步骤

  1. 进入PAI-Designer页面。
    1. 登录PAI控制台
    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
    3. 在工作空间页面的左侧导航栏选择模型开发和训练 > 可视化建模(Designer),进入Designer页面。
  2. 创建空白工作流,并进入工作流,详情请参见新建自定义工作流
    其中:
    • 工作流名称:配置为基于分箱组件实现连续特征离散化
    • 描述:配置为使用PAI提供的分箱组件,实现连续特征离散化
    • 可见范围:选择仅自己可见
  3. 构建实验流程。
    1. 在左侧组件列表,将源/目标下的读数据表组件拖入画布中。
    2. 在左侧组件列表,将金融板块下的分箱数据转换模块组件拖入画布中。
    3. 将以上组件拼接为如下实验。特征离散化实验
  4. 配置组件参数。
    1. 单击画布中的读数据表组件,在右侧面板,配置实验数据源。
      页签参数描述
      表选择表名输入pai_online_project.iris_data
      分区该公共数据表为非分区表,因此分区复选框不支持选中。
      字段信息源表字段信息配置表名后,系统会自动同步该数据表的源表字段信息,无需手动配置。
    2. 单击画布中的分箱组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。
      页签参数描述
      IO/字段设置特征列选择f1f2f3f4列。
      参数设置分箱个数配置为10,表示将连续特征离散化至10个区间中。
      分箱方式支持等频等宽自动分箱。使用自动分箱时,数据源必须包含label字段,且为二分类场景。本文以等频分箱为例。
    3. 单击画布中的数据转换模块组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。
      页签参数描述
      IO/字段设置不进行转换的数据列选择type列,该列会原样输出。
      数据转换的类型选择Index
  5. 单击画布上方的运行
  6. 查看实验结果。
    1. 实验运行结束后,右键单击画布中的数据转换模块组件,在快捷菜单,单击查看数据 > 输出,即可查看离散化结果。分箱离散结果
    2. 右键单击画布中的分箱组件,在快捷菜单,单击我要分箱
    3. 单击待查看特征(以f1特征列为例)名称,即可查看该特征的分箱详情,如下图所示。分箱详情
    4. 单击图表页签,以图表的形式查看分箱结果。分箱结果的图表展示