本文为您介绍PAI-Studio提供的箱线图。

箱形图是一种用作显示一组数据分散情况的统计图。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

配置组件

您可以通过以下任意一种方式,配置箱线图组件参数:
  • 可视化方式
    参数 描述
    选择连续类型特征 选择连续类型的特征。
    选择枚举类型特征 选择枚举类型的特征。
    分层样本采用数 分层样本的采用数。
  • PAI命令
    PAI -name box_plot -project algo_public
        -DinputTable="boxplot"
        -DcontinueCols="age"
        -DcategoryCol="y"
         -DoutputTable="pai_temp_6075_97181_1"
        -DsampleSize="1000"
        -Dlifecycle="7";
    参数名称 是否必选 描述 默认值
    inputTable 输入表的名称。
    inputTablePartitions 输入表中,参与训练的分区。系统支持以下格式:
    • Partition_name=value
    • name1=value1/name2=value2:多级分区
    说明 指定多个分区时,分区之间使用英文逗号(,)分隔。
    outputTable 输出表名,存放箱线图和采样的样本。
    continueCols 连续值特征。
    categoryCol 枚举特征列。
    sampleSize 绘制每个特征的扰动情况的样本采样数。 1000
    lifecycle 输出表生命周期。单位:天。 28
    coreNum 计算的核心数,取值范围为正整数。 系统自动分配
    memSizePerCore 每个核心的内存,取值范围为1 MB~65536 MB。 系统自动分配

示例

  • 输入数据
    create table boxplot as select age, y from bank_data limit 100;
    age y
    50 0
    53 0
    28 1
    39 0
    55 1
    30 0
    37 0
    39 0
    36 1
    27 0
    34 0
    41 0
    55 1
    33 0
    26 0
    52 0
    35 1
    27 1
    28 0
    26 0
    41 0
    35 0
    40 0
    32 0
    41 0
    34 0
    49 0
    37 0
    35 0
    38 0
    47 0
    46 0
    27 0
    29 1
    32 0
    36 0
    29 0
    47 0
    44 0
    54 0
    36 0
    42 0
    44 0
    72 1
    48 0
    36 0
    35 0
    43 0
    56 0
    42 0
    31 0
    32 0
    33 0
    31 0
    39 0
    30 1
    24 0
    24 0
    38 0
    26 0
    41 0
    34 0
    30 0
    37 0
    68 0
    31 0
    48 0
    33 0
    59 0
    44 0
    28 0
    50 0
    33 0
    45 0
    40 0
    45 0
    43 0
    54 0
    53 0
    35 0
    30 0
    25 0
    35 0
    54 1
    30 0
    38 0
    35 0
    47 0
    32 0
    27 0
    40 1
    31 0
    42 0
    40 0
    31 0
    57 0
    38 1
    39 0
    37 0
    44 0
  • 参数配置

    选择age为连续类型特征,y为枚举类特征,其他保持默认值。

  • 运行效果
    • 箱线图分布情况如下图所示。箱线图结果
    • 扰动点图分布情况如下图所示。扰动点图结果