聚合函数大全用法示例详解-MaxCompute-阿里云

聚合（Aggregate）函数的输入与输出是多对一的关系，即将多条输入记录聚合成一条输出值，可以与MaxCompute SQL中的group by语句配合使用。本文为您提供MaxCompute SQL支持的聚合函数的命令格式、参数说明及示例，指导您使用聚合函数完成开发。

MaxCompute SQL支持的聚合函数如下。

函数	功能
ANY	判断输入Value中是否存在至少一个为True的元素。
ANY_VALUE	在指定范围内任选一个值返回。
APPROX_DISTINCT	返回输入的非重复值的近似数目。
ARG_MAX	返回指定列的最大值对应行的列值。
ARG_MIN	返回指定列的最小值对应行的列值。
AVG	计算平均值。
BITWISE_AND_AGG	计算输入Value的bit AND聚合值。
BITWISE_OR_AGG	计算输入Value的bit OR聚合值。
BITWISE_XOR_AGG	计算输入Value的bit XOR聚合值。
BOOL_AND	对一组布尔值执行逻辑与（AND）操作。
BOOL_OR	对一组布尔值执行逻辑或（OR）操作。
COLLECT_LIST	将指定的列聚合为一个数组。
COLLECT_SET	将指定的列聚合为一个无重复元素的数组。
CORR	计算两列数据的皮尔逊系数（Pearson Correlation Coefficient）。
COUNT	计算记录数。
COUNT_IF	计算指定表达式为True的记录数。
COVAR_POP	计算指定两个数值列的总体协方差。
COVAR_SAMP	计算指定两个数值列的样本协方差。
HISTOGRAM	构造输入Map的Key值出现次数的Map。
MAP_AGG	构造两个输入字段的Map。
MAP_UNION	对输入Map进行Union操作来构造输出Map。
MAP_UNION_SUM	对输入Map进行Union操作并对相同Key的Value求和来构造输出Map。
MAX	计算最大值。
MAX_BY	返回指定列的最大值对应行的列值。
MEDIAN	计算中位数。
MIN	计算最小值。
MIN_BY	返回指定列的最小值对应行的列值。
MULTIMAP_AGG	构造两个输入字段的Map，第一个字段作为Map的Key，第二个字段构造数组作为Map的Value。
NUMERIC_HISTOGRAM	统计指定列的近似直方图。
PERCENTILE	计算精确百分位数，适用于小数据量。
PERCENTILE_APPROX	计算近似百分位数，适用于大数据量。
PERCENTILE_CONT	计算精确的百分位数。
PERCENTILE_DISC	计算给定的百分位数值。
STDDEV	计算总体标准差。
STDDEV_SAMP	计算样本标准差。
SUM	计算汇总值。
VAR_SAMP	计算指定数值列的样本方差。
VARIANCE/VAR_POP	计算指定数值列的方差。
WM_CONCAT	用指定的分隔符连接字符串。

注意事项

升级到MaxCompute 2.0后，产品扩展了部分函数。如果您用到的函数涉及新数据类型（TINYINT、SMALLINT、INT、FLOAT、VARCHAR、TIMESTAMP或BINARY），在使用扩展函数时，需要执行如下语句开启新数据类型开关：

Session级别：如果使用新数据类型，您需要在SQL语句前加上语句set odps.sql.type.system.odps2=true;，并与SQL语句一起提交执行。
Project级别：Project Owner可根据需要对Project进行设置，等待10~15分钟后才会生效。命令如下。
```
setproject odps.sql.type.system.odps2=true;
```
对setproject的详细说明请参见项目空间操作。关于开启Project级别数据类型的注意事项，请参见数据类型版本说明。
单个Worker里的元素数量不能超过两百万。

在同一条SQL语句中同时使用多个聚合函数时，如果项目资源不足，会出现内存溢出问题，请您根据实际业务情况优化SQL或购买计算资源。

聚合函数语法

聚合函数的语法声明如下。

<aggregate_name>(<expression>[,...]) [WITHIN GROUP (ORDER BY <col1>[,<col2>…])] [FILTER (WHERE <where_condition>)]

<aggregate_name>(<expression>[,...])：内建聚合函数或用户自定义聚合函数UDAF，具体格式以实际聚合函数语法为准。

WITHIN GROUP (ORDER BY <col1>[,<col2>…])：当聚合函数中携带该表达式时，默认会对<col1>[,<col2>…]的输入数据进行升序排列。如果需要降序排列，表达式为WITHIN GROUP (ORDER BY <col1>[,<col2>…] [DESC])。

在使用该表达式时，您需要注意：

仅支持WM_CONCAT、COLLECT_LIST、COLLECT_SET及UDAF使用该表达式。
一个SELECT语句中如果多个聚合函数携带WITHIN GROUP (ORDER BY <col1>[,<col2>…])表达式时，ORDER BY <col1>[,<col2>…]必须相同。
如果聚合函数的参数中携带了DISTINCT关键字，ORDER BY <col1>[,<col2>…]中只允许使用DISTINCT的列。即ORDER BY的列集合应该是DISTINCT列集合的子集，并且<col1>[,<col2>…]的字段类型要和聚合函数的入参类型保持一致。
说明
由于目前支持使用WITHIN GROUP (ORDER BY <col1>[,<col2>…])表达式的聚合函数中，只允许存在一个入参，因此如果聚合函数中携带了DISTINCT关键词，ORDER BY只能有一列，且必须与聚合函数的入参类型保持一致。
例如，WM_CONCAT函数的入参类型要求为STRING，那么ORDER BY后的字段类型也必须为STRING。详情请参见下述示例四（示例表emp的创建请参见示例数据）。

命令示例如下：

--示例一，对输入数据升序排列后输出。
SELECT x, wm_concat(',', y) WITHIN GROUP (ORDER BY y) FROM 
  VALUES('k', 1),('k', 3),('k', 2) AS t(x, y) GROUP BY x;
--返回结果如下。
+------------+------------+
| x          | _c1        |
+------------+------------+
| k          | 1,2,3      |
+------------+------------+

--示例二，对输入数据降序排列后输出。
SELECT x, wm_concat(',', y) WITHIN GROUP (ORDER BY y DESC) FROM
  VALUES('k', 1),('k', 3),('k', 2) AS t(x, y) GROUP BY x;
--返回结果如下。
+------------+------------+
| x          | _c1        |
+------------+------------+
| k          | 3,2,1      |
+------------+------------+

--示例三
SELECT id, wm_concat(DISTINCT ',', name) WITHIN GROUP (ORDER BY name DESC) FROM 
  VALUES('k', '1'),('k', '3'),('k', '2') AS t(id, name) GROUP BY id;

--返回结果如下。
+------------+------------+
| id         | _c1        |
+------------+------------+
| k          | 3,2,1      |
+------------+------------+

--示例四
--由于聚合函数的参数中携带了DISTINCT关键字，此时wm_concat函数中bigint类型的入参sal会被隐式转换为string类型，
--为了与wm_concat函数的入参类型保持一致，则order by sal中需要使用cast将sal转换为string类型，否则会导致报错。
SELECT deptno, wm_concat(DISTINCT ',', sal) 
  WITHIN GROUP (ORDER BY cast(sal AS STRING ) DESC) 
  FROM emp GROUP BY deptno ORDER BY deptno;

--返回结果如下。
+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 5000,2450,1300 |
| 20         | 800,3000,2975,1100 |
| 30         | 950,2850,1600,1500,1250 |
+------------+------------+

[filter (where <where_condition>)]：当聚合函数中携带该表达式时，聚合函数只会处理满足<where_condition>的数据。更多<where_condition>信息，请参见WHERE子句（WHERE_condition）。

在使用该表达式时，您需要注意：

仅支持内建聚合函数使用该表达式，不支持UDAF使用该表达式。
count(*)支持[filter (where <where_condition>)]表达式。
COUNT_IF不支持[filter (where <where_condition>)]表达式。

命令示例如下：

--示例一，过滤并聚合数据。
select
  sum(x),
  sum(x) filter (where y > 1),
  sum(x) filter (where y > 2)
  from values(null, 1),(1, 2),(2, 3),(3, null) as t(x, y);
--返回结果如下。
+------------+------------+------------+
| _c0        | _c1        | _c2        |
+------------+------------+------------+
| 6          | 3          | 2          |
+------------+------------+------------+

--示例二，使用多个聚合函数过滤并聚合数据。
select
  count_if(x > 2),
  sum(x) filter (where y > 1),
  sum(x) filter (where y > 2)
  from values(null, 1),(1, 2),(2, 3),(3, null) as t(x, y);
--返回结果如下。
+------------+------------+------------+
| _c0        | _c1        | _c2        |
+------------+------------+------------+
| 1          | 3          | 2          |
+------------+------------+------------+

示例数据

为便于理解各函数的使用方法，本文为您提供源数据，基于源数据提供函数相关示例。创建表emp，并添加数据，命令示例如下：

create table if not exists emp
   (empno bigint,
    ename string,
    job string,
    mgr bigint,
    hiredate datetime,
    sal bigint,
    comm bigint,
    deptno bigint);
tunnel upload emp.txt emp;

emp.txt中的数据如下：

7369,SMITH,CLERK,7902,1980-12-17 00:00:00,800,,20
7499,ALLEN,SALESMAN,7698,1981-02-20 00:00:00,1600,300,30
7521,WARD,SALESMAN,7698,1981-02-22 00:00:00,1250,500,30
7566,JONES,MANAGER,7839,1981-04-02 00:00:00,2975,,20
7654,MARTIN,SALESMAN,7698,1981-09-28 00:00:00,1250,1400,30
7698,BLAKE,MANAGER,7839,1981-05-01 00:00:00,2850,,30
7782,CLARK,MANAGER,7839,1981-06-09 00:00:00,2450,,10
7788,SCOTT,ANALYST,7566,1987-04-19 00:00:00,3000,,20
7839,KING,PRESIDENT,,1981-11-17 00:00:00,5000,,10
7844,TURNER,SALESMAN,7698,1981-09-08 00:00:00,1500,0,30
7876,ADAMS,CLERK,7788,1987-05-23 00:00:00,1100,,20
7900,JAMES,CLERK,7698,1981-12-03 00:00:00,950,,30
7902,FORD,ANALYST,7566,1981-12-03 00:00:00,3000,,20
7934,MILLER,CLERK,7782,1982-01-23 00:00:00,1300,,10
7948,JACCKA,CLERK,7782,1981-04-12 00:00:00,5000,,10
7956,WELAN,CLERK,7649,1982-07-20 00:00:00,2450,,10
7956,TEBAGE,CLERK,7748,1982-12-30 00:00:00,1300,,10

过滤条件表达式

使用限制。
- 仅MaxCompute内置的聚合函数支持添加过滤条件表达式，自定义聚合函数UDAF暂不支持。
- count(*)不能与过滤条件表达式同时使用，请使用COUNT_IF函数。

命令格式。

<aggregate_name>(<expression>[,...]) [filter (where <where_condition>)]

命令说明。
聚合函数都可以增加过滤条件表达式。如果指定了过滤条件，则只有满足过滤条件的行数据才会传给对应的聚合函数进行处理。
参数说明。
- aggregate_name：必填。聚合函数名称，请根据实际需求选择下方的聚合函数。
- expression：必填。聚合函数的参数。请根据各个聚合函数的参数说明填写。
- where_condition：可选。过滤条件。更多过滤条件信息，请参见WHERE子句（WHERE_condition）。
返回值说明。
请参见各个聚合函数的返回值说明。

使用示例。

select sum(sal) filter (where deptno=10), sum(sal) filter (where deptno=20), sum(sal) filter (where deptno=30) from emp;

返回结果如下：

+------------+------------+------------+
| _c0        | _c1        | _c2        |
+------------+------------+------------+
| 17500      | 10875      | 9400       |
+------------+------------+------------+

ANY

命令格式。
```
BOOLEAN ANY(BOOLEAN <colname>)
```
命令说明。
将colname指定的列值聚合为一个数组，判断其中是否存在至少一个为TRUE的元素，如果至少有一个值为TRUE，则返回TRUE。
参数说明。
colname：必填。BOOLEAN类型。
返回值说明。
返回BOOLEAN类型。colname值为NULL时，该行不参与计算。

示例。

-- 返回 true
SELECT ANY(colname) FROM VALUES (true), (false), (false) AS tab(colname);
-- 返回 true
SELECT ANY(colname) FROM VALUES (NULL), (true), (false) AS tab(colname);
-- 返回 false
SELECT ANY(colname) FROM VALUES (false), (false), (NULL) AS tab(colname);
-- 返回 true
SELECT ANY(colname1) FILTER(WHERE colname2 = 2) FROM VALUES (true, 1), (false, 1), (true, 2) AS tab(colname1, colname2);

ANY_VALUE

命令格式。
```
any_value(<colname>)
```
命令说明。
在指定范围内任选一个值返回。此函数为MaxCompute 2.0扩展函数。
参数说明。
colname：必填。可以为任意类型。
返回值说明。
返回值类型同colname对应值类型。colname值为NULL时，该行不参与计算。

示例。

示例1：在所有职工中任选一名。命令示例如下：

select any_value(ename) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| SMITH      |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并在各组中任选一名。命令示例如下：

select deptno, any_value(ename) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | CLARK      |
| 20         | SMITH      |
| 30         | ALLEN      |
+------------+------------+

APPROX_DISTINCT

命令格式。
```
approx_distinct(<colname>)
```
命令说明。
计算指定列的非重复值的近似数目。此函数为MaxCompute 2.0扩展函数。
参数说明。
colname：必填。需要统计去重的列。
返回值说明。
返回BIGINT类型。此函数会产生5%的标准误差。colname值为NULL时，该行不参与计算。

示例。

示例1：统计薪资（sal）列非重复值的近似数目。命令示例如下：

select approx_distinct(sal) from emp;

返回结果如下：

+-------------------+
| numdistinctvalues |
+-------------------+
| 12                |
+-------------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，统计薪资（sal）列非重复值的近似数目。命令示例如下：

select deptno, approx_distinct(sal) from emp group by deptno;

返回结果如下：

+------------+-------------------+
| deptno     | numdistinctvalues |
+------------+-------------------+
| 10         | 3                 |
| 20         | 4                 |
| 30         | 5                 |
+------------+-------------------+

ARG_MAX

命令格式。

arg_max(<valueToMaximize>, <valueToReturn>)

命令说明。
返回valueToMaximize最大值对应行的valueToReturn。此函数为MaxCompute 2.0扩展函数。
参数说明。
- valueToMaximize：必填。可以为任意类型。
- valueToReturn：必填。可以为任意类型。
返回值说明。
返回值类型和valueToReturn类型相同，如果存在多行最大值时，随机返回最大值中的一行对应的值。valueToMaximize值为NULL时，该行不参与计算。

示例。

示例1：返回薪资最高的员工姓名。命令示例如下：

select arg_max(sal, ename) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| KING       |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并返回各组中薪资最高职工姓名。命令示例如下：

select deptno, arg_max(sal, ename) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | KING       |
| 20         | SCOTT      |
| 30         | BLAKE      |
+------------+------------+

ARG_MIN

命令格式。

arg_min(<valueToMinimize>, <valueToReturn>)

命令说明。
返回valueToMinimize最小值对应行的valueToReturn。此函数为MaxCompute 2.0扩展函数。
参数说明。
- valueToMinimize：必填。可以为任意类型。
- valueToReturn：必填。可以为任意类型。
返回值说明。
返回值类型和valueToReturn类型相同，如果存在多行最小值时，随机返回最小值其中的一行对应的值。valueToMinimize值为NULL时，该行不参与计算。

示例。

示例1：返回薪资最低的员工姓名。命令示例如下：

select arg_min(sal, ename) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| SMITH      |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并返回各组中薪资最低职工姓名。命令示例如下：

select deptno, arg_min(sal, ename) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | MILLER     |
| 20         | SMITH      |
| 30         | JAMES      |
+------------+------------+

AVG

命令格式。
```
DECIMAL｜DOUBLE  avg(<colname>)
```
命令说明。
计算平均值。
参数说明。
colname：必填。列值支持所有数据类型，可以转换为DOUBLE类型后参与运算。
返回值说明。
如果colname值为NULL时，该行不参与计算。其他类型返回规则如下：
输入类型
返回类型
TINYINT
DOUBLE
SMALLINT
DOUBLE
INT
DOUBLE
BIGINT
DOUBLE
FLOAT
DOUBLE
DOUBLE
DOUBLE
DECIMAL
DECIMAL

示例。

示例1：计算所有职工的平均薪资（sal）。命令示例如下：

select avg(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 2222.0588235294117 |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，计算各部门员工的平均薪资（sal）。命令示例如下：

select deptno, avg(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 2916.6666666666665 |
| 20         | 2175.0     |
| 30         | 1566.6666666666667 |
+------------+------------+

BITWISE_AND_AGG

命令格式。
```
BIGINT bitwise_and_agg(BIGINT value)
```
命令说明。
对于输入的value，按照bit AND操作计算聚合值。
参数说明。
value：必填。BIGINT类型的值，NULL值不参与计算。
返回值说明。
返回BIGINT类型。

示例。

SELECT id, bitwise_and_agg(v) FROM
    VALUES (1L, 2L), (1L, 1L), (2L, null), (1L, null) t(id, v) GROUP BY id;

返回结果如下。

+------------+------------+
| id         | _c1        |
+------------+------------+
| 1          | 0          |
| 2          | NULL       |
+------------+------------+

BITWISE_OR_AGG

函数声明。
```
bigint bitwise_or_agg(bigint value)
```
命令说明。
对于输入的value，按照bit OR操作计算聚合值。
参数说明。
value：必填。BIGINT类型的值，NULL值不参与计算。
返回值说明。
返回BIGINT类型。

示例。

select id, bitwise_or_agg(v) from
    values (1L, 2L), (1L, 1L), (2L, null), (1L, null) t(id, v) group by id;

返回结果如下。

+------------+------------+
| id         | _c1        |
+------------+------------+
| 1          | 3          |
| 2          | NULL       |
+------------+------------+

BITWISE_XOR_AGG

函数声明。

BIGINT BITWISE_XOR_AGG(BIGINT|INT|SMALLINT|TINYINT value)

命令说明。
对于输入的value，按照BIT XOR操作计算聚合值。
参数说明。
value：必填。BIGINT、INT、SMALLINT、TINYINT类型的值，NULL值不参与计算。
返回值说明。
返回BIGINT类型。返回规则如下：
- value值非BIGINT、INT、SMALLINT或TINYINT类型时，返回报错。
- value值为NULL时，返回NULL。

示例。

SELECT id, bitwise_xor_agg(v) FROM 
  VALUES (1L, 2L), (1L, 1L), (2L, NULL), (1L, NULL) t(id, v) GROUP BY id;

返回结果如下。

+------------+------------+
| id         | _c1        | 
+------------+------------+
| 1          | 3          | 
| 2          | NULL       | 
+------------+------------+

BOOL_AND

命令格式。
```
BOOLEAN BOOL_AND(<colname>)
```
命令说明。
将colname指定的列值聚合为一个数组，再对该组布尔值执行逻辑与（AND）操作。
参数说明。
colname：必填。表的列名称，为BOOLEAN类型。
返回值说明。
返回BOOLEAN类型。返回规则如下：
- 若输入的所有值都为true，则返回true，否则返回false。
- BOOL_AND()函数会忽略组内的NULL值。

示例。

-- 示例一，执行简单逻辑与操作。
SELECT bool_and(colname) FROM VALUES (true), (false), (true) AS tab(colname);
-- 返回结果
+------+
| _c0  | 
+------+
| false | 
+------+

-- 示例二，BOOL_AND()函数会忽略组内的NULL值。
SELECT bool_and(colname) FROM VALUES (NULL), (true), (true) AS tab(colname);
-- 返回结果
+------+
| _c0  | 
+------+
| true | 
+------+

-- 示例三，支持仅对某列聚合。
SELECT bool_and(colname1) FROM VALUES (true, 1), (false, 2), (true, 1) AS tab(colname1, colname2);
-- 返回结果
+------+
| _c0  | 
+------+
| false | 
+------+

-- 示例四，支持筛选后的布尔逻辑与操作。
SELECT bool_and(colname1) FILTER(WHERE colname2 = 1) FROM VALUES (true, 1), (false, 2), (true, 1) AS tab(colname1, colname2);
-- 返回结果
+------+
| _c0  | 
+------+
| true | 
+------+

BOOL_OR

命令格式。
```
BOOLEAN BOOL_OR(BOOLEAN <colname>)
```
命令说明。
将colname指定的列值聚合为一个数组，再对该组布尔值执行逻辑或（OR）操作。
参数说明。
colname：必填。表的列名称，为BOOLEAN类型。
返回值说明。
返回BOOLEAN类型。返回规则如下：
- 若输入值中至少有一个值在组中为true，则返回true；若所有值都为false，则该函数返回false。
- BOOL_OR()函数会忽略组内的NULL值。

示例。

-- 示例一，执行简单逻辑或操作。
SELECT bool_or(colname) FROM VALUES (true), (false), (false) AS tab(colname);
-- 返回结果
+------+
| _c0  | 
+------+
| true | 
+------+

-- 示例二，BOOL_OR()函数会忽略组内的NULL值。
SELECT bool_or(colname) FROM VALUES (NULL), (true), (false) AS tab(colname);
-- 返回结果
+------+
| _c0  | 
+------+
| true | 
+------+

-- 示例三。
SELECT bool_or(colname1) FROM VALUES (false), (false), (NULL) AS tab(colname1);
-- 返回结果
+------+
| _c0  | 
+------+
| false | 
+------+

-- 示例四，支持筛选后的布尔逻辑或操作。
SELECT bool_or(colname1) FILTER(WHERE colname2 = 1) FROM VALUES (true, 1), (false, 1), (true, 2) AS tab(colname1, colname2);
-- 返回结果
+------+
| _c0  | 
+------+
| true | 
+------+

COLLECT_LIST

命令格式。
```
array collect_list(<colname>)
```
命令说明。
将colname指定的列值聚合为一个数组。此函数为MaxCompute 2.0扩展函数。
参数说明。
colname：必填。表的列名称，可为任意类型。
返回值说明。
返回ARRAY类型。colname值为NULL时，该行不参与计算。

示例。

示例1：将所有职工薪资（sal）聚合为一个数组。命令示例如下：

select collect_list(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| [800,1600,1250,2975,1250,2850,2450,3000,5000,1500,1100,950,3000,1300,5000,2450,1300] |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并将同组的职工薪资（sal）聚合为一个数组。命令示例如下：

select deptno, collect_list(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [2450,5000,1300,5000,2450,1300] |
| 20         | [800,2975,3000,1100,3000] |
| 30         | [1600,1250,1250,2850,1500,950] |
+------------+------------+

示例3：与group by配合使用，对所有职工按照部门（deptno）进行分组，并将同组的职工薪资（sal）去重后聚合为一个数组。命令示例如下：

select deptno, collect_list(distinct sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [1300,2450,5000] |
| 20         | [800,1100,2975,3000] |
| 30         | [950,1250,1500,1600,2850] |
+------------+------------+

COLLECT_SET

命令格式。
```
array collect_set(<colname>)
```
命令说明。
将colname指定的列值聚合为一个无重复元素的数组。此函数为MaxCompute 2.0扩展函数。
参数说明。
colname：必填。表的列名称，可以为任意类型。
返回值说明。
返回ARRAY类型。colname值为NULL时，该行不参与计算。

示例。

示例1：将所有职工薪资（sal）聚合为一个无重复值的数组。命令示例如下：

select collect_set(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| [800,950,1100,1250,1300,1500,1600,2450,2850,2975,3000,5000] |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并将同组的职工薪资（sal）聚合为一个无重复值的数组。命令示例如下：

select deptno, collect_set(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [1300,2450,5000] |
| 20         | [800,1100,2975,3000] |
| 30         | [950,1250,1500,1600,2850] |
+------------+------------+

CORR

命令格式
```
double corr(<col1>, <col2>)
```
命令说明
计算两列数据的皮尔逊系数（Pearson Correlation Coefficient）。此函数为MaxCompute 2.0扩展函数。
参数说明
col1、col2：必填。待计算皮尔逊系数的表的两个列名称。DOUBLE、BIGINT、INT、SMALLINT、TINYINT、FLOAT、DECIMAL类型。col1和col2的数据类型可以不相同。
返回值说明
返回DOUBLE类型。如果某一输入列的某一行存在NULL值，该行不参与计算。
示例
基于示例数据，计算double_data和float_data两列的皮尔逊系数，命令示例如下。
```
select corr(double_data,float_data) from mf_math_fun_t;
```
返回结果为1.0。

COUNT

命令格式

-- 计算记录数
BIGINT COUNT([DISTINCT|ALL] <colname>)

-- 计算窗口中的记录数
BIGINT COUNT(*) OVER ([partition_clause] [orderby_clause] [frame_clause])
BIGINT COUNT([DISTINCT] <expr>[,...]) OVER ([partition_clause] [orderby_clause] [frame_clause])

参数说明

DISTINCT|ALL：可选。表示在计数时是否去除重复记录，默认为ALL，即计算全部记录。如果指定DISTINCT，则只计算唯一值数量。
colname：必填。列值可以为任意类型。colname可以为*，即COUNT(*)，此时返回所有行数。colname值为NULL时，该行不参与计算。
expr：必填。待计算计数值的列。可以为任意类型。当值为NULL时，该行不参与计算。当指定DISTINCT关键字时，表示取唯一值的计数值。
COUNT([DISTINCT] <expr>[,...])：计算指定窗口记录中所有值均不为NULL的行数。若指定DISTINCT关键字，则对这些行去重后计数。
partition_clause、orderby_clause及frame_clause：详情请参见windowing_definition。

返回值说明

返回BIGINT类型。colname值为NULL时，该行不参与计算。

使用示例

准备测试数据

如果已有数据，可忽略该步骤。

下载测试数据test_data.txt。

创建测试表

CREATE TABLE IF NOT EXISTS emp(
  empno BIGINT,
  ename STRING,
  job STRING,
  mgr BIGINT,
  hiredate DATETIME,
  sal BIGINT,
  comm BIGINT,
  deptno BIGINT
);

加载数据
根据数据文件的实际path(路径以及名称)替换FILE_PATH。
```
TUNNEL UPLOAD FILE_PATH emp;   
```

示例1：指定某一列为开窗列，返回不排序情况下累计计数值

指定薪水（sal）为开窗列，不排序，返回当前窗口（相同sal）的从开始行到最后一行的累计计数值。

命令示例

SELECT sal, COUNT(sal) OVER (PARTITION BY sal) AS count FROM emp;

返回结果

+------------+------------+
| sal        | count      | 
+------------+------------+
| 800        | 1          | 
| 950        | 1          | 
| 1100       | 1          | 
| 1250       | 2          |  -- 窗口开始行。第1行和第2行的sal一致，则第1行的count为第2行的累计计数值。
| 1250       | 2          |  -- 当前窗口从第1行到第2行的累计计数值。
| 1300       | 2          | 
| 1300       | 2          | 
| 1500       | 1          | 
| 1600       | 1          | 
| 2450       | 2          | 
| 2450       | 2          | 
| 2850       | 1          | 
| 2975       | 1          | 
| 3000       | 2          | 
| 3000       | 2          | 
| 5000       | 2          | 
| 5000       | 2          | 
+------------+------------+

示例2：非Hive兼容模式下，指定某一列为开窗列，返回排序后累计计数值

非Hive兼容模式下，指定薪水（sal）为开窗列，并排序，返回当前窗口（相同sal）从开始行到当前行的累计计数值。

命令示例

-- 关闭Hive兼容模式。
SET odps.sql.hive.compatible=false;

SELECT sal, COUNT(sal) OVER (PARTITION BY sal ORDER BY sal) AS count FROM emp;

返回结果

+------------+------------+
| sal        | count      |
+------------+------------+
| 800        | 1          |
| 950        | 1          |
| 1100       | 1          |
| 1250       | 1          |   -- 窗口开始行。第1行的累计计数值是1。
| 1250       | 2          |   -- 第2行的累计计数值是2。
| 1300       | 1          |
| 1300       | 2          |
| 1500       | 1          |
| 1600       | 1          |
| 2450       | 1          |
| 2450       | 2          |
| 2850       | 1          |
| 2975       | 1          |
| 3000       | 1          |
| 3000       | 2          |
| 5000       | 1          |
| 5000       | 2          |
+------------+------------+

示例3：Hive兼容模式下，指定某一列为开窗列，返回排序后累计计数值

Hive兼容模式下，指定薪水（sal）为开窗列，并排序，返回当前窗口（相同sal）从开始行至最后一行的累计计数值。

命令示例

-- 开启Hive兼容模式。
SET odps.sql.hive.compatible=true;

SELECT sal, COUNT(sal) OVER (PARTITION BY sal ORDER BY sal) AS count FROM emp;

返回结果

+------------+------------+
| sal        | count      |
+------------+------------+
| 800        | 1          |
| 950        | 1          |
| 1100       | 1          |
| 1250       | 2          |   -- 窗口开始行。第1行和第2行的sal一致，则第1行的count为第2行的累计计数值。
| 1250       | 2          |   -- 当前窗口从第1行到第2行的累计计数值。
| 1300       | 2          |
| 1300       | 2          |
| 1500       | 1          |
| 1600       | 1          |
| 2450       | 2          |
| 2450       | 2          |
| 2850       | 1          |
| 2975       | 1          |
| 3000       | 2          |
| 3000       | 2          |
| 5000       | 2          |
| 5000       | 2          |
+------------+------------+

示例4：返回总行数

计算所有部门的总职工人数。

命令示例
```
SELECT COUNT(*) FROM emp;
```

返回结果

+------------+
| _c0        |
+------------+
| 17         |
+------------+

示例5：分组计算各组总数

与GROUP BY配合使用，对所有职工按照部门（deptno）分组，计算各部门（deptno）的职工人数。

命令示例

SELECT deptno, COUNT(*) FROM emp GROUP BY deptno;

返回结果

+------------+------------+
| deptno     | _c1        | 
+------------+------------+
| 20         | 5          | 
| 30         | 6          | 
| 10         | 6          | 
+------------+------------+

示例6：去重计数

通过DISTINCT去重，计算部门数量。

命令示例
```
SELECT COUNT(DISTINCT deptno) FROM emp;
```

返回结果

+------------+
| _c0        |
+------------+
| 3          |
+------------+

COUNT_IF

命令格式。
```
bigint count_if(boolean <expr>)
```
命令说明。
计算expr值为True的记录数。
参数说明。
expr：必填。BOOLEAN类型表达式。
返回值说明。
返回BIGINT类型。expr值为False或expr中指定的列的值为NULL时，该行不参与计算。

示例。

select count_if(sal > 1000), count_if(sal <=1000) from emp;

返回结果如下：

+------------+------------+
| _c0        | _c1        |
+------------+------------+
| 15         | 2          |
+------------+------------+

COVAR_POP

命令格式。

double covar_pop(<colname1>, <colname2>)

命令说明。
计算指定两个数值列的总体协方差。此函数为MaxCompute 2.0扩展函数。
参数说明。
colname1、colname2：必填。数据类型为数值类型的列。其他类型返回NULL。

示例。

在示例表emp中执行如下命令追加数据：

--sal_new为新薪资列。
alter table emp add columns (sal_new bigint);
insert overwrite table emp select empno, ename, job, mgr, hiredate, sal, comm, deptno, sal+1000 from emp;

示例1：计算sal与sal_new的总体协方差。命令示例如下：

select covar_pop(sal, sal_new) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 1594550.1730103805 |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并计算同组职工sal与sal_new的总体协方差。命令示例如下：

select deptno, covar_pop(sal, sal_new) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 2390555.5555555555 |
| 20         | 1009500.0  |
| 30         | 372222.2222222222 |
+------------+------------+

COVAR_SAMP

命令格式。

double covar_samp(<colname1>, <colname2>)

命令说明。
计算指定两个数值列的样本协方差。此函数为MaxCompute 2.0扩展函数。
参数说明。
colname1、colname2：必填。数据类型为数值类型的列。其他类型返回NULL。

示例。

在示例表emp中执行如下命令追加数据：

--sal_new为新薪资列。
alter table emp add columns (sal_new bigint);
insert overwrite table emp select empno, ename, job, mgr, hiredate, sal, comm, deptno, sal+1000 from emp;

示例1：计算sal与sal_new的样本协方差。命令示例如下：

select covar_samp(sal, sal_new) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 1694209.5588235292 |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并计算同组职工sal与sal_new的样本协方差。命令示例如下：

select deptno, covar_samp(sal, sal_new) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 2868666.6666666665 |
| 20         | 1261875.0  |
| 30         | 446666.6666666666 |
+------------+------------+

HISTOGRAM

函数声明。
```
map<K, bigint> histogram(K input);
```
命令说明。
返回一个Map，Map的Key是输入input值，Map的Value是input值出现的次数。NULL值将被忽略。
参数说明。
input：输入字段，将作为Map的Key。
返回值说明。
返回构造的Map，描述每个input值出现的次数。

示例。

select histogram(a) from values
    ('hi'), (null), ('apple'), ('pie'), ('apple') t(a);

返回结果如下。

+----------------------------+
| _c0                        |
+----------------------------+
| {"pie":1,"hi":1,"apple":2} |
+----------------------------+

MAP_AGG

函数声明。
```
map<K, V> map_agg(K a, V b);
```
命令说明。
使用输入的两个字段分别作为Key和Value来构造Map，以第一个字段作为Map的Key，以第二个字段作为Map的Value。如果key为NULL，则被忽略。如果Key的取值有重复，则会随机只保留其中的一个。
参数说明。
- a：输入字段，将作为Map的Key。
- b：输入字段，将作为Map的value。
返回值说明。
返回构造的Map。

示例。

select map_agg(a, b) from
        values (1L, 'apple'), (2L, 'hi'), (null, 'good'), (1L, 'pie') t(a, b);

返回结果如下。

+------------------------+
| _c0                    |
+------------------------+
| {"2":"hi","1":"apple"} |
+------------------------+

MAP_UNION

函数声明。
```
map<K, V> map_union(map<K, V> input);
```
命令说明。
对输入Map进行Union操作构造输出Map，如果某一个Key在多个输入Map中都存在，则会随机只保留其中的一个。
参数说明。
input：输入Map。
返回值说明。
返回构造的Map。

示例。

select map_union(a) from values
    (map(1L, 'hi', 2L, 'apple', 3L, 'pie')), (map(1L, 'good', 4L, 'this')), (null) t(a);

返回结果如下。

+-----------------------------------------------+
| _c0                                           |
+-----------------------------------------------+
| {"4":"this","1":"good","2":"apple","3":"pie"} |
+-----------------------------------------------+

MAP_UNION_SUM

函数声明。

map<K, V> map_union_sum(map<K, V> input);

命令说明。
对输入Map进行Union并对同一个Key的Value进行求和操作构造输出Map，如果某一个Key对应的Value为NULL，则将其转换为0。
说明
输入Map的Value的类型必须是数值类型，例如BIGINT、INT、SMALLINT、TINYINT、FLOAT、DOUBLE、DECIMAL。
参数说明。
input：输入Map。
返回值说明。
返回构造的Map。
说明
输出Map的Value类型是BIGINT、DOUBLE、DECIMAL。

示例。

select map_union_sum(a) from values
    (map('hi', 2L, 'apple', 3L, 'pie', 1L)), (map('apple', null, 'hi', 4L)), (null) t(a);

返回结果如下。

+----------------------------+
| _c0                        |
+----------------------------+
| {"apple":3,"hi":6,"pie":1} |
+----------------------------+

MAX

命令格式。
```
max(<colname>)
```
命令说明。
计算最大值。
参数说明。
colname：必填。列值可以为除BOOLEAN外的任意类型。
返回值说明。
返回值的类型与colname类型相同。返回规则如下：
- colname值为NULL时，该行不参与计算。
- colname为BOOLEAN类型时，不允许参与运算。

示例。

示例1：计算所有职工的最高薪资（sal）。命令示例如下：

select max(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 5000       |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，计算各部门员工的最高薪资（sal）。命令示例如下：

select deptno, max(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 5000       |
| 20         | 3000       |
| 30         | 2850       |
+------------+------------+

MAX_BY

命令格式。

max_by(<valueToReturn>,<valueToMaximize>)

命令说明。
说明
MAX_BY函数与ARG_MAX函数功能相同，只是参数顺序不同，为了兼容开源语法，新增MAX_BY函数以便您适配开源写法。
返回valueToMaximize最大值对应行的valueToReturn。此函数为MaxCompute 2.0扩展函数。
参数说明。
- valueToMaximize：必填。可以为任意类型。
- valueToReturn：必填。可以为任意类型。
返回值说明。
返回值类型和valueToReturn类型相同，如果存在多行最大值时，随机返回最大值其中的一行对应的值。valueToMaximize值为NULL时，该行不参与计算。

示例。

示例1：返回薪资最高的员工姓名。命令示例如下：

select max_by(ename,sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| KING       |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并返回各组中薪资最高职工的姓名。命令示例如下：

select deptno, max_by(ename,sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | KING       |
| 20         | SCOTT      |
| 30         | BLAKE      |
+------------+------------+

MEDIAN

命令格式。

double median(double <colname>)
decimal median(decimal <colname>)

命令说明。
计算中位数。
参数说明。
colname：必填。列值可以为DOUBLE或DECIMAL类型。如果输入为STRING或BIGINT类型，会隐式转换为DOUBLE类型后参与运算。
返回值说明。
如果colname值为NULL时，该行不参与计算。其他类型返回规则如下：
输入类型
返回类型
TINYINT
DOUBLE
SMALLINT
DOUBLE
INT
DOUBLE
BIGINT
DOUBLE
FLOAT
DOUBLE
DOUBLE
DOUBLE
DECIMAL
DECIMAL

示例。

示例1：计算所有职工的薪资（sal）中位数。命令示例如下：

select median(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 1600.0     |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，计算各部门员工的薪资（sal）中位数。命令示例如下：

select deptno, median(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 2450.0     |
| 20         | 2975.0     |
| 30         | 1375.0     |
+------------+------------+

MIN

命令格式。
```
min(<colname>)
```
命令说明。
计算最小值。
参数说明。
colname：必填。列值可以为除BOOLEAN外的任意类型。
返回值说明。
返回值的类型与colname类型相同。返回规则如下：
- colname值为NULL时，该行不参与计算。
- colname为BOOLEAN类型时，不允许参与运算。

示例。

示例1：计算所有职工的最低薪资（sal）。命令示例如下：

select min(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 800        |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，计算各部门员工的最低薪资（sal）。命令示例如下：

select deptno, min(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1300       |
| 20         | 800        |
| 30         | 950        |
+------------+------------+

MIN_BY

命令格式。

min_by(<valueToReturn>,<valueToMinimize>)

命令说明。
说明
MIN_BY函数与ARG_MIN函数功能相同，只是参数顺序不同，为了兼容开源语法，新增MIN_BY函数以便您适配开源写法。
返回valueToMinimize最小值对应行的valueToReturn。此函数为MaxCompute 2.0扩展函数。
参数说明。
- valueToMinimize：必填。可以为任意类型。
- valueToReturn：必填。可以为任意类型。
返回值说明。
返回值类型和valueToReturn类型相同，如果存在多行最小值时，随机返回最小值其中的一行对应的值。valueToMinimize值为NULL时，该行不参与计算。

示例。

示例1：返回薪资最低的员工姓名。命令示例如下：

 select min_by(ename,sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| SMITH      |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并返回各组中薪资最低职工姓名。命令示例如下：

select deptno, min_by(ename,sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | MILLER     |
| 20         | SMITH      |
| 30         | JAMES      |
+------------+------------+

MULTIMAP_AGG

函数声明。

map<K, array<V>> multimap_agg(K a, V b);

命令说明。
使用输入的两个字段分别作为Key和Value来构造Map，以第一个字段作为Map的Key，以第二个字段构造数组来作为Map的Value。如果key为NULL，则被忽略。
参数说明。
- a：输入字段，将作为Map的Key。
- b：输入字段，相同Key的字段被放到同一个数组中作为Map的value。
返回值说明。
返回构造的Map。

示例。

select multimap_agg(a, b) from
        values (1L, 'apple'), (2L, 'hi'), (null, 'good'), (1L, 'pie') t(a, b);

返回结果如下。

+----------------------------------+
| _c0                              |
+----------------------------------+
| {"2":["hi"],"1":["apple","pie"]} |
+----------------------------------+

NUMERIC_HISTOGRAM

命令格式。

map<double key, double value> numeric_histogram(bigint <buckets>,
                                                double <colname>
                                                [, double <weight>])

命令说明。
统计指定列的近似直方图。此函数为MaxCompute 2.0扩展函数。
参数说明。
- buckets：必填。BIGINT类型，表示返回的近似直方图列的最大个数。
- colname：必填。DOUBLE类型，需要统计近似直方图的列。
- weight：可选。权重值，可以指定每行数据对应的权重，值为DOUBLE类型的列。
返回值说明。
map<double key, double value>类型，返回值中key是近似直方图的X轴坐标点，value是近似直方图的Y轴的近似高度。返回规则如下：
- buckets值为NULL时，返回NULL。
- colname值为NULL时，该行不参与计算。

示例。

统计薪资（sal）的近似直方图。命令示例如下：

select numeric_histogram(5, sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| {"1328.5714285714287":7.0,"2450.0":2.0,"5000.0":2.0,"875.0":2.0,"2956.25":4.0} |
+------------+

统计薪资（sal）的近似直方图，其中每行数据中的deptno代表部门权重。命令示例如下：

select numeric_histogram(5, sal, deptno) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| {"2944.4444444444443":90.0,"2450.0":20.0,"5000.0":20.0,"890.0":50.0,"1350.0":160.0} |
+------------+

PERCENTILE

命令格式。

double percentile(bigint <colname>, <p>)
--以数组形式返回多个百分位精确计算结果。
array percentile(bigint <colname>, array(<p1> [, <p2>...]))

命令说明。
计算精确百分位数，适用于小数据量。先对指定列升序排列，然后取精确的第p位百分数。p必须在0和1之间。percentile是从编号0开始计算，例如某列数据为100、200、300，列数据的编号顺序为0、1、2，计算该列的0.3百分位点，percentile结果是2×0.3=0.6，即值位于编号0和1之间，结果为100+(200-100)×0.6=160。此函数为MaxCompute 2.0扩展函数。
参数说明。
- colname：必填。值为BIGINT类型的列。
- p：必填。需要精确的百分位数。取值为[0.0,1.0]。
返回值说明。
返回DOUBLE或ARRAY类型。

示例。

示例1：计算0.3百分位的薪资（sal）。命令示例如下：

select percentile(sal, 0.3) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 1290.0     |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并计算同组职工0.3百分位的薪资（sal）。命令示例如下：

select deptno, percentile(sal, 0.3) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1875.0     |
| 20         | 1475.0     |
| 30         | 1250.0     |
+------------+------------+

示例3：与group by配合使用，对所有职工按照部门（deptno）进行分组，并计算同组职工0.3、0.5、0.8百分位的薪资（sal）。命令示例如下：

set odps.sql.type.system.odps2=true;
select deptno, percentile(sal, array(0.3, 0.5, 0.8)) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [1875.0,2450.0,5000.0] |
| 20         | [1475.0,2975.0,3000.0] |
| 30         | [1250.0,1375.0,1600.0] |
+------------+------------+

PERCENTILE_APPROX

命令格式。

double percentile_approx (double <colname>[, double <weight>], <p> [, <B>]))
--以数组形式返回多个百分位近似计算结果。
array<double> percentile_approx (double <colname>
                                 [, double <weight>],
                                 array(<p1> [, <p2>...])
                                 [, <B>])

命令说明。
此函数为MaxCompute 2.0扩展函数。percentile_approx是从编号1开始计算，假设某列有n条数据，计算该列的p百分位点，则percentile_approx会先对该列升序排序，假设排序后该列数据为一个数组arr，percentile_approx返回结果为res，计算该位点对应的index=n * p。
- index <= 1，则res = arr[0]。
- index >= n - 1，则res = arr[n-1]。
- 1 < index < n - 1，则继续计算diff = index + 0.5 - ceil(index)：
  ○ 若abs(diff) < 0.5，res = arr[ceil(index) - 1]；
  ○ 若abs(diff) = 0.5，res = arr[index - 1] + (arr[index] - arr[index - 1]) * 0.5；
  ○ abs(diff)不可能大于0.5
例如col列数据为100、200、300、400，列数据的编号顺序为1、2、3、4，则：
- percentile_approx(col, 0.25) = 100（index = 1）。
- percentile_approx(col, 0.5) = 200 + (300 - 200) * 0.5 = 250（index = 2）。
- percentile_approx(col, 0.75) = 400（index = 3）。
说明
percentile_approx与percentile的区别如下：
- percentile_approx用于计算近似的百分位数，percentile用于计算精确的百分位数。在数据量较大时，percentile可能会因内存限制而执行失败，而percentile_approx无此问题。
- percentile_approx的实现与Hive的percentile_approx函数实现一致，计算的算法与percentile不同，因此在数据量非常少的部分场景下的执行结果与percentile的执行结果会有一定差别。
参数说明。
- colname：必填。值为DOUBLE类型的列。
- weight：可选。权重值，可以指定每行数据对应的权重，值为DOUBLE类型的列。
- p：必填。需要近似的百分位数。取值为[0.0,1.0]。
- B：精度参数。精度越高产生的近似值误差越小。如果不设置该参数，默认值为10000。
返回值说明。
返回DOUBLE或ARRAY类型。返回规则如下：
- colname值为NULL时，该行不参与计算。
- p或B值为NULL时，返回报错。

示例。

示例1：计算0.3百分位的薪资（sal）。命令示例如下：

select percentile_approx(sal, 0.3) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 1252.5     |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并计算同组职工0.3百分位的薪资（sal）。命令示例如下：

select deptno, percentile_approx(sal, 0.3) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1300.0     |
| 20         | 950.0      |
| 30         | 1070.0     |
+------------+------------+

示例3：与group by配合使用，对所有职工按照部门（deptno）进行分组，并计算同组职工0.3、0.5、0.8百分位的薪资（sal）。命令示例如下：

set odps.sql.type.system.odps2=true;
select deptno, percentile_approx(sal, array(0.3, 0.5, 0.8), 1000) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [1300.0,1875.0,3470.000000000001] |
| 20         | [950.0,2037.5,2987.5] |
| 30         | [1070.0,1250.0,1580.0] |
+------------+------------+

示例4：带权重接口示例：与group by配合使用，对所有职工按照部门（deptno）进行分组，并计算同组职工0.3、0.5、0.8百分位的薪资（sal），emp表中的cnt代表拥有该薪资的人数。命令示例如下：

select deptno, percentile_approx(sal, deptno, array(0.3, 0.5, 0.8), 1000)
  from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [1300.0,1875.0,3470.0] |
| 20         | [950.0,2037.5,2987.5] |
| 30         | [1070.0,1250.0,1580.0] |
+------------+------------+

PERCENTILE_CONT

命令格式

-- 计算精确的百分位数
PERCENTILE_CONT(<col_name>, DOUBLE <percentile>[, BOOLEAN <isIgnoreNull>])

-- 计算窗口中精确的百分位数
PERCENTILE_CONT(<col_name>, DOUBLE <percentile>[, BOOLEAN <isIgnoreNull>]) OVER ([partition_clause] [orderby_clause])

命令说明
计算精确的百分位数，采用线性插值算法，对指定列升序排列，返回精确的第percentile位百分数。
参数说明
- col_name：必填。值为 DOUBLE 类型或 DECIMAL 类型的列。
- percentile：必填。需要计算的百分位数。DOUBLE类型常量，取值在[0,1]范围内。
- isIgnoreNull：可选。是否忽略NULL值。BOOLEAN类型常量，默认为TRUE。若取值为FALSE，排序时NULL值会作为最小值。
- partition_clause及orderby_clause：详情请参见窗口函数。
返回值说明
返回计算的百分位数值，类型为DOUBLE。

示例

示例1：忽略NULL值，计算窗口中精确的百分位数。

SELECT
  PERCENTILE_CONT(x, 0) OVER() AS min,
  PERCENTILE_CONT(x, 0.01) OVER() AS percentile1,
  PERCENTILE_CONT(x, 0.5) OVER() AS median,
  PERCENTILE_CONT(x, 0.9) OVER() AS percentile90,
  PERCENTILE_CONT(x, 1) OVER() AS max
FROM VALUES(0D),(3D),(NULL),(1D),(2D) AS tbl(x) LIMIT 1;

-- 返回结果。
+------------+-------------+------------+--------------+------------+
| min        | percentile1 | median     | percentile90 | max        | 
+------------+-------------+------------+--------------+------------+
| 0.0        | 0.03        | 1.5        | 2.7          | 3.0        | 
+------------+-------------+------------+--------------+------------+

示例2：不忽略NULL值则排序时NULL值作为最小值，计算窗口中精确的百分位数。

SELECT
  PERCENTILE_CONT(x, 0, false) OVER() AS min,
  PERCENTILE_CONT(x, 0.01, false) OVER() AS percentile1,
  PERCENTILE_CONT(x, 0.5, false) OVER() AS median,
  PERCENTILE_CONT(x, 0.9, false) OVER() AS percentile90,
  PERCENTILE_CONT(x, 1, false) OVER() AS max
FROM VALUES(0D),(3D),(NULL),(1D),(2D) AS tbl(x) LIMIT 1;

-- 返回结果。
+------------+-------------+------------+--------------+------------+
| min        | percentile1 | median     | percentile90 | max        | 
+------------+-------------+------------+--------------+------------+
| NULL       | 0.0         | 1.0        | 2.6          | 3.0        | 
+------------+-------------+------------+--------------+------------+

PERCENTILE_DISC

命令格式

-- 计算给定的百分位数值
PERCENTILE_DISC(<col_name>, DOUBLE <percentile>[, BOOLEAN <isIgnoreNull>])

-- 计算窗口中的百分位数值
PERCENTILE_DISC(<col_name>, DOUBLE <percentile>[, BOOLEAN <isIgnoreNull>]) OVER ([partition_clause] [orderby_clause])

命令说明
计算给定的百分位数值，先对指定列升序排列，返回累计分布大于或等于给定百分位数的第一个值。
参数说明
- col_name：必填。任意可排序值列。
- percentile：必填。需要计算的百分位数。DOUBLE类型常量，取值在[0,1]范围内。
- isIgnoreNull：可选。是否忽略NULL值。BOOLEAN类型常量，默认为TRUE。若取值为FALSE，排序时NULL值会作为最小值。
- partition_clause及orderby_clause：详情请参见窗口函数。
返回值说明
返回计算的百分位数值，类型与输入col_name列的数据类型一致。

示例

示例1：忽略NULL值，计算窗口中的百分位数值。

SELECT
  x,
  PERCENTILE_DISC(x, 0) OVER() AS min,
  PERCENTILE_DISC(x, 0.5) OVER() AS median,
  PERCENTILE_DISC(x, 1) OVER() AS max
FROM VALUES('c'),(NULL),('b'),('a') AS tbl(x);

-- 返回结果。
+------------+------------+------------+------------+
| x          | min        | median     | max        | 
+------------+------------+------------+------------+
| c          | a          | b          | c          | 
| NULL       | a          | b          | c          | 
| b          | a          | b          | c          | 
| a          | a          | b          | c          | 
+------------+------------+------------+------------+

示例2：不忽略NULL值则排序时NULL值作为最小值，计算窗口中的百分位数值。

SELECT
  x,
  PERCENTILE_DISC(x, 0, false) OVER() AS min,
  PERCENTILE_DISC(x, 0.5, false) OVER() AS median,
  PERCENTILE_DISC(x, 1, false) OVER() AS max
FROM VALUES('c'),(NULL),('b'),('a') AS tbl(x);

-- 返回结果。
+------------+------------+------------+------------+
| x          | min        | median     | max        | 
+------------+------------+------------+------------+
| c          | NULL       | a          | c          | 
| NULL       | NULL       | a          | c          | 
| b          | NULL       | a          | c          | 
| a          | NULL       | a          | c          | 
+------------+------------+------------+------------+

STDDEV

命令格式。

double stddev(double <colname>)
decimal stddev(decimal <colname>)

命令说明。
计算总体标准差。
参数说明。
colname：必填。DOUBLE或DECIMAL类型。如果输入为STRING或BIGINT类型，会隐式转换为DOUBLE类型后参与运算。
返回值说明。
如果colname值为NULL时，该行不参与计算。其他类型返回规则如下：
输入类型
返回类型
TINYINT
DOUBLE
SMALLINT
DOUBLE
INT
DOUBLE
BIGINT
DOUBLE
FLOAT
DOUBLE
DOUBLE
DOUBLE
DECIMAL
DECIMAL

示例。

示例1：计算所有职工的薪资（sal）的总体标准差。命令示例如下：

select stddev(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 1262.7549932628976 |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，计算各部门员工的薪资（sal）总体标准差。命令示例如下：

select deptno, stddev(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1546.1421524412158 |
| 20         | 1004.7387720198718 |
| 30         | 610.1001739241043 |
+------------+------------+

STDDEV_SAMP

命令格式。

double stddev_samp(double <colname>)
decimal stddev_samp(decimal <colname>)

命令说明。
计算样本标准差。
参数说明。
colname：必填。列值可以为DOUBLE或DECIMAL类型。如果输入为STRING或BIGINT类型，会隐式转换为DOUBLE类型后参与运算。
返回值说明。
如果colname值为NULL时，该行不参与计算。其他类型返回规则如下：
输入类型
返回类型
TINYINT
DOUBLE
SMALLINT
DOUBLE
INT
DOUBLE
BIGINT
DOUBLE
FLOAT
DOUBLE
DOUBLE
DOUBLE
DECIMAL
DECIMAL

示例。

示例1：计算所有职工的薪资（sal）的样本标准差。命令示例如下：

select stddev_samp(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 1301.6180541247609 |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，计算各部门员工的薪资（sal）样本标准差。命令示例如下：

select deptno, stddev_samp(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1693.7138680032901 |
| 20         | 1123.3320969330487 |
| 30         | 668.3312551921141 |
+------------+------------+

SUM

命令格式。

DECIMAL｜DOUBLE｜BIGINT  sum(<colname>)

命令说明。
计算汇总值。
参数说明。
colname：必填。列值支持所有数据类型，可以转换为DOUBLE类型后参与运算。列值可以为DOUBLE、DECIMAL或BIGINT类型。如果输入为STRING类型，会隐式转换为DOUBLE类型后参与运算。
返回值说明。
如果colname值为NULL时，该行不参与计算。其他类型返回规则如下：
输入类型
返回类型
TINYINT
BIGINT
SMALLINT
BIGINT
INT
BIGINT
BIGINT
BIGINT
FLOAT
DOUBLE
DOUBLE
DOUBLE
DECIMAL
DECIMAL

示例。

示例1：计算所有职工的薪资（sal）总和。命令示例如下：

select sum(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 37775      |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，计算各部门员工的薪资（sal）总和。命令示例如下：

select deptno, sum(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 17500      |
| 20         | 10875      |
| 30         | 9400       |
+------------+------------+

VAR_SAMP

命令格式。
```
double var_samp(<colname>)
```
命令说明。
计算指定数值列的样本方差。此函数为MaxCompute 2.0扩展函数。
参数说明。
colname：必填。数据类型为数值的列。其他类型返回NULL。
返回值说明。
返回DOUBLE类型。

示例。

示例1：计算所有职工薪资（sal）的样本方差。命令示例如下：

select var_samp(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 1694209.5588235292 |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并计算同组职工薪资（sal）的样本方差。命令示例如下：

select deptno, var_samp(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 2868666.666666667 |
| 20         | 1261875.0  |
| 30         | 446666.6666666667 |
+------------+------------+

VARIANCE/VAR_POP

命令格式。

double variance(<colname>)
double var_pop(<colname>)

命令说明。
计算指定数值列的方差。
参数说明。
colname：必填。数据类型为数值的列。参数为其他类型的列返回NULL。此函数为MaxCompute 2.0扩展函数。
返回值说明。
返回DOUBLE类型。

示例。

示例1：计算所有职工薪资（sal）的方差。命令示例如下：

select variance(sal) from emp;
--等效于如下语句。
select var_pop(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 1594550.1730103805 |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并计算同组职工薪资（sal）的方差。命令示例如下：

select deptno, variance(sal) from emp group by deptno;
--等效于如下语句。
select deptno, var_pop(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 2390555.5555555555 |
| 20         | 1009500.0  |
| 30         | 372222.22222222225 |
+------------+------------+

WM_CONCAT

命令格式。

string wm_concat(string <separator>, string <colname>)

命令说明。
用指定的separator做分隔符，连接colname中的值。
参数说明。
- separator：必填。STRING类型常量，分隔符。
- colname：必填。STRING类型。如果输入为BIGINT、DOUBLE或DATETIME类型，会隐式转换为STRING类型后参与运算。
返回值说明（使用group by分组，组内返回值不排序）。
返回STRING类型。返回规则如下：
- separator非STRING类型常量时，返回报错。
- colname非STRING、BIGINT、DOUBLE或DATETIME类型时，返回报错。
- colname值为NULL时，该行不会参与计算。
说明
select wm_concat(',', name) from table_name;语句中，如果table_name为空集合，该语句返回NULL值。

示例。

示例1：对所有职工的姓名（ename）进行合并。命令示例如下：

select wm_concat(',', ename) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| SMITH,ALLEN,WARD,JONES,MARTIN,BLAKE,CLARK,SCOTT,KING,TURNER,ADAMS,JAMES,FORD,MILLER,JACCKA,WELAN,TEBAGE |
+------------+

示例2：与group by配合使用，对所有职工按照部门（deptno）进行分组，并将同组的职工姓名（ename）进行合并。命令示例如下：

select deptno, wm_concat(',', ename) from emp group by deptno order by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | CLARK,KING,MILLER,JACCKA,WELAN,TEBAGE |
| 20         | SMITH,JONES,SCOTT,ADAMS,FORD |
| 30         | ALLEN,WARD,MARTIN,BLAKE,TURNER,JAMES |
+------------+------------+

示例3：与group by配合使用，对所有职工按照部门（deptno）进行分组，并将同组的薪资（sal）去重后进行合并。命令示例如下：

select deptno, wm_concat(distinct ',', sal) from emp group by deptno order by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1300,2450,5000 |
| 20         | 1100,2975,3000,800 |
| 30         | 1250,1500,1600,2850,950 |
+------------+------------+

示例4：与 group by、 order by配合使用，对所有职工按照部门（deptno）进行分组，并将同组的薪资（sal）进行合并排序。命令示例如下：

select deptno, wm_concat(',',sal) within group(order by sal) from emp group by deptno order by deptno;

返回结果如下：

+------------+------------+
|deptno|_c1|
+------------+------------+
|10|1300,1300,2450,2450,5000,5000|
|20|800,1100,2975,3000,3000|
|30|950,1250,1250,1500,1600,2850|
+------------+------------+

输入类型	返回类型
TINYINT	DOUBLE
SMALLINT	DOUBLE
INT	DOUBLE
BIGINT	DOUBLE
FLOAT	DOUBLE
DOUBLE	DOUBLE
DECIMAL	DECIMAL