直方图(Histogram)又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 通常,横轴表示数据类型,纵轴表示分布情况。
组件配置
您可以使用以下任意一种方式,配置直方图组件参数。
方式一:可视化方式
在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签 | 参数 | 描述 |
---|---|---|
字段设置 | 选择字段 | 选择需要分析的字段。支持double和bigint类型。
说明 最大不超过1024个字段。
|
参数设置 | 区间个数 | 直方图的区间个数。 |
执行调优 | 计算核心数 | 计算的核心数,取值范围为正整数。 |
每个核内存数 | 每个核心的内存,取值范围为1 MB~65536 MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name histogram
-project algo_public
-DinputTableName=maple_histogram_1to20_input
-DoutputTableName=maple_histogram_1to20_output
-DselectedColNames=col0,col1 -DintervalNum=20;
参数名称 | 是否必选 | 描述 | 默认值 |
---|---|---|---|
inputTableName | 是 | 输入表的名称。 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。系统支持以下格式:
说明 指定多个分区时,分区之间使用英文逗号(,)分隔。
|
无 |
outputTableName | 是 | 输出表名称。 | 无 |
selectedColNames | 是 | 输入表中用于训练的列名,以逗号分隔,支持int和double类型。
说明 最大不超过1024列。
|
无 |
intervalNum | 否 | 直方图区间个数。 | 100 |
lifecycle | 否 | 表的声明周期。 | 无 |
coreNum | 否 | 计算的核心数,取值范围为正整数。取值范围[1, 9999]。 | 系统自动分配 |
memSizePerCore | 否 | 每个核心的内存,取值范围为1 MB~65536 MB。 | 系统自动分配 |
示例
- 输入说明
col0 col1 1 1.0 2 2.0 3 3.0 4 4.0 5 5.0 6 6.0 7 7.0 8 8.0 9 9.0 10 10.0 11 11.0 12 12.0 13 13.0 14 14.0 15 15.0 16 16.0 17 17.0 18 18.0 19 19.0 20 20.0 - PAI命令
PAI -name histogram -project algo_public -DinputTableName=maple_histogram_1to20_input -DoutputTableName=maple_histogram_1to20_output -DselectedColNames=col0,col1 -DintervalNum=20;
- 输出说明
colname histogram col0 [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1 col1 [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1