文档

箱线图

更新时间:

本文为您介绍Designer提供的箱线图。

箱形图是一种用作显示一组数据分散情况的统计图。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

使用限制

仅原PAI-Studio平台支持查看该组件的可视化报告。

配置组件

您可以使用以下任意一种方式,配置箱线图组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

选择连续类型特征

选择连续类型的特征。

选择枚举类型特征

选择枚举类型的特征。

说明

Designer中仅支持选择一个字段;在Designer中支持选择多个字段。

分层样本采用数

分层样本的采用数。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name box_plot -project algo_public
    -DinputTable="boxplot"
    -DcontinueCols="age"
    -DcategoryCol="y"
     -DoutputTable="pai_temp_6075_97181_1"
    -DsampleSize="1000"
    -Dlifecycle="7";

参数名称

是否必选

描述

默认值

inputTable

输入表的名称。

inputTablePartitions

输入表中,参与训练的分区。系统支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多级分区

说明

指定多个分区时,分区之间使用英文逗号(,)分隔。

outputTable

输出表名,存放箱线图和采样的样本。

continueCols

连续类型特征列。

categoryCol

枚举类型特征列。

sampleSize

绘制每个特征的扰动情况的样本采样数。

1000

lifecycle

输出表生命周期,单位为:天。

28

coreNum

计算的核心数,取值范围为正整数。

系统自动分配

memSizePerCore

每个核心的内存,取值范围为1 MB~65536 MB。

系统自动分配

示例

  • 输入数据

    create table boxplot as select age, y from bank_data limit 100;

    age

    y

    50

    0

    53

    0

    28

    1

    39

    0

    55

    1

    30

    0

    37

    0

    39

    0

    36

    1

    27

    0

    34

    0

    41

    0

    55

    1

    33

    0

    26

    0

    52

    0

    35

    1

    27

    1

    28

    0

    26

    0

    41

    0

    35

    0

    40

    0

    32

    0

    41

    0

    34

    0

    49

    0

    37

    0

    35

    0

    38

    0

    47

    0

    46

    0

    27

    0

    29

    1

    32

    0

    36

    0

    29

    0

    47

    0

    44

    0

    54

    0

    36

    0

    42

    0

    44

    0

    72

    1

    48

    0

    36

    0

    35

    0

    43

    0

    56

    0

    42

    0

    31

    0

    32

    0

    33

    0

    31

    0

    39

    0

    30

    1

    24

    0

    24

    0

    38

    0

    26

    0

    41

    0

    34

    0

    30

    0

    37

    0

    68

    0

    31

    0

    48

    0

    33

    0

    59

    0

    44

    0

    28

    0

    50

    0

    33

    0

    45

    0

    40

    0

    45

    0

    43

    0

    54

    0

    53

    0

    35

    0

    30

    0

    25

    0

    35

    0

    54

    1

    30

    0

    38

    0

    35

    0

    47

    0

    32

    0

    27

    0

    40

    1

    31

    0

    42

    0

    40

    0

    31

    0

    57

    0

    38

    1

    39

    0

    37

    0

    44

    0

  • 参数配置

    选择age为连续类型特征,y为枚举类特征,其他保持默认值。

  • 运行效果

    • 输出说明

      右键单击箱线图,选择查看数据 > 输出,来查看箱线图的输出结果。其中:

      • percent_points:表示计算的百分位数。

      • percent_count:表示按百分位数划分区间后,各个区间内的数据条数。

      • sample_list:首先使用分层样本采用数 ÷ 数据总数计算得出采样率,根据采样率在每层样本中进行采样。如果采样率太低,导致每层里的样本数 × 采样率小于10,则会重新计算新的采样率。

    • 箱线图分布情况如下图所示。箱线图结果

    • 扰动点图分布情况如下图所示。扰动点图结果

  • 本页导读 (1)