本文为您介绍PAI-Designer(原PAI-Studio)提供的箱线图。
箱形图是一种用作显示一组数据分散情况的统计图。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
使用限制
仅原PAI-Studio平台支持查看该组件的可视化报告。
配置组件
您可以使用以下任意一种方式,配置箱线图组件参数。
方式一:可视化方式
在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签 | 参数 | 描述 |
---|---|---|
字段设置 | 选择连续类型特征 | 选择连续类型的特征。 |
选择枚举类型特征 | 选择枚举类型的特征。
说明 在PAI-Studio中仅支持选择一个字段;在PAI-Designer中支持选择多个字段。
|
|
分层样本采用数 | 分层样本的采用数。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name box_plot -project algo_public
-DinputTable="boxplot"
-DcontinueCols="age"
-DcategoryCol="y"
-DoutputTable="pai_temp_6075_97181_1"
-DsampleSize="1000"
-Dlifecycle="7";
参数名称 | 是否必选 | 描述 | 默认值 |
---|---|---|---|
inputTable | 是 | 输入表的名称。 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。系统支持以下格式:
说明 指定多个分区时,分区之间使用英文逗号(,)分隔。
|
无 |
outputTable | 是 | 输出表名,存放箱线图和采样的样本。 | 无 |
continueCols | 是 | 连续类型特征列。 | 无 |
categoryCol | 是 | 枚举类型特征列。 | 无 |
sampleSize | 否 | 绘制每个特征的扰动情况的样本采样数。 | 1000 |
lifecycle | 否 | 输出表生命周期,单位为:天。 | 28 |
coreNum | 否 | 计算的核心数,取值范围为正整数。 | 系统自动分配 |
memSizePerCore | 否 | 每个核心的内存,取值范围为1 MB~65536 MB。 | 系统自动分配 |
示例
- 输入数据
create table boxplot as select age, y from bank_data limit 100;
age y 50 0 53 0 28 1 39 0 55 1 30 0 37 0 39 0 36 1 27 0 34 0 41 0 55 1 33 0 26 0 52 0 35 1 27 1 28 0 26 0 41 0 35 0 40 0 32 0 41 0 34 0 49 0 37 0 35 0 38 0 47 0 46 0 27 0 29 1 32 0 36 0 29 0 47 0 44 0 54 0 36 0 42 0 44 0 72 1 48 0 36 0 35 0 43 0 56 0 42 0 31 0 32 0 33 0 31 0 39 0 30 1 24 0 24 0 38 0 26 0 41 0 34 0 30 0 37 0 68 0 31 0 48 0 33 0 59 0 44 0 28 0 50 0 33 0 45 0 40 0 45 0 43 0 54 0 53 0 35 0 30 0 25 0 35 0 54 1 30 0 38 0 35 0 47 0 32 0 27 0 40 1 31 0 42 0 40 0 31 0 57 0 38 1 39 0 37 0 44 0 - 参数配置
选择age为连续类型特征,y为枚举类特征,其他保持默认值。
- 运行效果
- 输出说明
右键单击箱线图,选择 ,来查看箱线图的输出结果。其中:
- percent_points:表示计算的百分位数。
- percent_count:表示按百分位数划分区间后,各个区间内的数据条数。
- sample_list:首先使用分层样本采用数 ÷ 数据总数计算得出采样率,根据采样率在每层样本中进行采样。如果采样率太低,导致每层里的样本数 × 采样率小于10,则会重新计算新的采样率。
- 箱线图分布情况如下图所示。
- 扰动点图分布情况如下图所示。
- 输出说明