本文为您介绍如何使用分箱组件进行连续特征离散化。

前提条件

完成项目的创建,详情请参见创建项目

背景信息

特征离散是将连续的数据进行分段,使其变为多个离散化区间。针对该场景,PAI推出了分箱组件,支持等频分箱、等宽分箱及自动分箱。

本文首先使用读数据表组件,读取公共数据表pai_online_project.iris_data。然后使用分箱组件生成离散数据。最后使用数据转换模块将原始数据从连续值转换为离散值。

操作步骤

  1. 进入PAI-Studio控制台。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模
    3. PAI可视化建模页面,单击进入机器学习进入机器学习
  2. 创建空白实验。
    1. 在左侧导航栏,单击首页
    2. 单击新建实验 > 新建空白实验
    3. 新建实验对话框,配置参数。
      参数 描述
      名称 输入基于分箱组件实现连续特征离散化
      项目 不支持修改。
      描述 输入使用PAI提供的分箱组件,实现连续特征离散化
      位置 选择我的实验
    4. 单击确定
  3. 构建实验流程。
    1. 在左侧导航栏,单击组件
    2. 在组件列表,将源/目标下的读数据表组件拖入画布中。
    3. 在组件列表,将金融板块下的分箱数据转换模块组件拖入画布中。
    4. 将以上组件拼接为如下实验。特征离散化实验
  4. 配置组件参数。
    1. 单击画布中的读数据表组件,在右侧面板,配置实验数据源。
      页签 参数 描述
      表选择 表名 输入pai_online_project.iris_data
      分区 该公共数据表为非分区表,因此分区复选框不支持选中。
      字段信息 源表字段信息 配置表名后,系统会自动同步该数据表的源表字段信息,无需手动配置。
    2. 单击画布中的分箱组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。
      页签 参数 描述
      IO/字段设置 特征列 选择f1f2f3f4列。
      参数设置 分箱个数 配置为10,表示将连续特征离散化至10个区间中。
      分箱方式 支持等频等宽自动分箱,本文以等频分箱为例。
    3. 单击画布中的数据转换模块组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。
      页签 参数 描述
      IO/字段设置 不进行转换的数据列 选择type列,该列会原样输出。
      数据转换的类型 选择Index
      参数设置 分箱个数 配置为10,表示将连续特征离散化至10个区间中。
      分箱方式 支持等频等宽自动分箱。使用自动分箱时,数据源必须包含label字段,且为二分类场景。本文以等频分箱为例。
  5. 单击画布上方的运行
  6. 查看实验结果。
    1. 实验运行结束后,右键单击画布中的数据转换模块组件,在快捷菜单,单击查看数据,即可查看离散化结果。分箱离散结果
    2. 右键单击画布中的分箱组件,在快捷菜单,单击我要分箱
    3. 单击待查看特征(以f1特征列为例)操作列下的详情,即可查看该特征的分箱详情,如下图所示。分箱详情
    4. 单击图表页签,以图表的形式查看分箱结果。分箱结果的图表展示