全表统计

全表统计用于统计全表,或某些选中的列。

组件配置

您可以使用以下任意一种方式,配置全表统计组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

参数设置

输入列

选择输入列的字段,系统默认选择全部列。

执行调优

核数目

节点个数。

内存数

单个节点内存大小。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

 PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1

参数名称

参数描述

是否必选

inputTableName

输入表名。

outputTableName

输出表名。

inputTablePartitions

输入表的分区,系统默认选择所有分区。

selectColNames

需要统计的列名。

lifecycle

输出结果表的生命周期,系统默认不设置生命周期。

说明

仅支持输入正整数。

coreNum

节点数量。

说明

仅支持输入正整数。

memSizePerCore

每个节点的内存数,取值范围[1024, 64*1024],单位MB。

说明

仅支持输入正整数。

输出格式

输出统计结果的全部字段,如下表所示。

列名

描述

colname

列名

datatype

类型

totalcount

总数

count

NULL数量

missingcount

NULL数量

nancount

NAN数量

positiveinfinitycount

正无穷数量

negativeinfinitycount

负无穷数量

min

最小值

max

最大值

mean

平均值

variance

方差

standarddeviation

标准差

standarderror

标准误差

skewness

偏度

kurtosis

峰度

moment2

二阶矩

moment3

三阶矩

moment4

四阶矩

centralmoment2

二阶中心距

centralmoment3

三阶中心距

centralmoment4

四阶中心距

sum

总和

sum2

平方和

sum3

立方和

sum4

四次方和

示例

  • 输入数据

    drop table if exists summary_test_input;
    create table summary_test_input as
    select
      *
    from
    (
      select 'a' as col1, 1 as col2, 0.001 as col3
        union all
      select 'b' as col1, 2 as col2, 100.01 as col3
    ) tmp;
  • PAI命令

    PAI -name stat_summary
    -project algo_public
    -DinputTableName=summary_test_input
    -DoutputTableName=summary_test_input_out
    -DselectColNames=col1,col2,col3
    -Dlifecycle=1;
  • 输出结果

        | colname    | datatype   | totalcount | count      | missingcount | nancount   | positiveinfinitycount | negativeinfinitycount | min        | max        | mean       | variance   | standarddeviation | standarderror | skewness   | kurtosis   | moment2    | moment3    | moment4    | centralmoment2 | centralmoment3 | centralmoment4 | sum        | sum2       | sum3       | sum4       |
        | col1       | string     | 2          | 2          | 0            | 0          | 0                     | 0                     | NULL       | NULL       | NULL       | NULL       | NULL              | NULL          | NULL       | NULL       | NULL       | NULL       | NULL       | NULL           | NULL           | NULL           | NULL       | NULL       | NULL       | NULL       |
        | col2       | bigint     | 2          | 2          | 0            | 0          | 0                     | 0                     | 1          | 2          | 1.5        | 0.5        | 0.7071067811865476 | 0.5           | 0          | -2         | 2.5        | 4.5        | 8.5        | 0.25           | 0              | 0.0625         | 3          | 5          | 9          | 17         |
        | col3       | double     | 2          | 2          | 0            | 0          | 0                     | 0                     | 0.001      | 100.01     | 50.0055    | 5000.900040500001 | 70.71704207968544 | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025  | 2.91038304567337e-11 | 6252250.303768232 | 100.011    | 10002.000101 | 1000300.030001001 | 100040006.0004 |