直方图(Histogram)又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 通常,横轴表示数据类型,纵轴表示分布情况。

组件配置

您可以通过以下方式,配置离散值特征分析组件参数:
  • 可视化方式
    页签 参数 描述
    字段设置 选择字段 选择需要分析的字段。支持double和bigint类型。
    说明 最大不超过1024个字段。
    参数设置 区间个数 直方图的区间个数。
    执行调优 计算核心数 计算的核心数,取值范围为正整数。
    每个核内存数 每个核心的内存,取值范围为1 MB~65536 MB。
  • PAI命令
    PAI -name histogram
          -project algo_public
          -DinputTableName=maple_histogram_1to20_input
          -DoutputTableName=maple_histogram_1to20_output
          -DselectedColNames=col0,col1 -DintervalNum=20;
    参数名称 是否必选 描述 默认值
    inputTableName 输入表的名称。
    inputTablePartitions 输入表中,参与训练的分区。系统支持以下格式:
    • Partition_name=value
    • name1=value1/name2=value2:多级分区
    说明 指定多个分区时,分区之间使用英文逗号(,)分隔。
    outputTableName 输出表名称。
    selectedColNames 输入表中用于训练的列名,以逗号分隔,支持int和double类型。
    说明 最大不超过1024列。
    intervalNum 直方图区间个数。 100
    lifecycle 表的声明周期。
    coreNum 计算的核心数,取值范围为正整数。取值范围[1, 9999]。 系统自动分配
    memSizePerCore 每个核心的内存,取值范围为1 MB~65536 MB。 系统自动分配

示例

  • 输入说明
    col0 col1
    1 1.0
    2 2.0
    3 3.0
    4 4.0
    5 5.0
    6 6.0
    7 7.0
    8 8.0
    9 9.0
    10 10.0
    11 11.0
    12 12.0
    13 13.0
    14 14.0
    15 15.0
    16 16.0
    17 17.0
    18 18.0
    19 19.0
    20 20.0
  • PAI命令
    PAI -name histogram
        -project algo_public
        -DinputTableName=maple_histogram_1to20_input
        -DoutputTableName=maple_histogram_1to20_output
        -DselectedColNames=col0,col1 -DintervalNum=20;
  • 输出说明
    colname histogram
    col0 [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1
    col1 [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1