全部产品
云市场

事件路径分析函数

更新时间:2019-12-27 14:27:07

事件路径分析函数支持按照事件时间和时间戳得到事件顺序发生的时间序列。

前提条件

通过以下步骤在DLA中准备好测试数据。

  1. 您可以参照上传文件,将sample上传至OSS中。

  2. 在DLA中创建Schema。

    1. CREATE SCHEMA event_schema with DBPROPERTIES(
    2. catalog='oss',
    3. location = 'oss://bucket-name/event/'
    4. );
  3. 在DLA中创建表。

    1. CREATE EXTERNAL TABLE IF NOT EXISTS sample (
    2. user_id bigint COMMENT '',
    3. event_time bigint COMMENT '',
    4. event_id int COMMENT '',
    5. event_name varchar COMMENT '',
    6. event_attr varchar COMMENT '',
    7. event_date date COMMENT ''
    8. )
    9. ROW FORMAT DELIMITED
    10. FIELDS TERMINATED BY '|'
    11. STORED AS TEXTFILE
    12. LOCATION 'oss://bucket-name/event/'
    13. TBLPROPERTIES (
    14. 'auto.create.location' = 'true'
    15. );

本文示例均以sample表为测试数据。

EVENT_SEQUENCE

  1. event_sequence(
  2. boolean desc,
  3. bigint limit,
  4. bigint timeInMS
  • 命令说明:以数组形式返回事件发生的时间点序列。

  • 参数类型:

    • boolean desc:是否按照事件时间从大到小排列,默认值为false,即按照从小到大的顺序排列。

    • bigint limit:设置返回的时间点序列数组的大小,默认值为100,最大值为1000。

    • bigint timeInMS:事件发生的时间点和时间戳,其中时间戳的类型为LONG,时间精确到毫秒。

  • 返回值类型:ARRAY[BIGINT]。

  • 示例:

    1. SELECT event_name, event_sequence(event_time) AS a
    2. FROM sample
    3. GROUP BY 1
    4. ORDER BY 1;
    5. +----------|-------------------------------+
    6. |event_name| event_sequence |
    7. +----------|-------------------------------+
    8. | 加入购物车| [1483254745351] |
    9. | 收藏商品 | [1483220795802] |
    10. | 浏览商品 | [1483233554546, 1483240004108]|
    11. | 生成订单 | [1483222204303] |
    12. | 登陆 | [1483220124362, 1483233099062, 1483266703322, 1483279486394] |
    13. | 退订商品 | [1483267998231] |
    1. SELECT event_name, event_sequence(true, 3, event_time) AS a
    2. FROM sample
    3. GROUP BY 1
    4. ORDER BY 1;
    5. +-----------------+-----------------------------------------------+
    6. | event_name | a |
    7. +-----------------+-----------------------------------------------+
    8. | 加入购物车 | [1483254745351] |
    9. | 收藏商品 | [1483220795802] |
    10. | 浏览商品 | [1483240004108, 1483233554546] |
    11. | 生成订单 | [1483222204303] |
    12. | 登陆 | [1483279486394, 1483266703322, 1483233099062] |
    13. | 退订商品 | [1483267998231] |

    EVENT_INTERVAL

  1. event_interval(
  2. boolean desc,
  3. bigint limit,
  4. bigint timeInMS,
  5. varchar timeZoneKey,
  6. varchar timeUnit
  • 命令说明:以数组形式返回事件发生的时间点间隔序列数组。

  • 参数类型:

    • boolean desc:是否按照事件时间从大到小排列,默认值为false,即按照从小到大的顺序排列。

    • bigint limit:设置输出的时间点序列数组的大小,默认值为100,最大值为1000。

    • bigint timeInMS:事件发生的时间点和时间戳,其中时间戳的类型为LONG,时间精确到毫秒。

    • varchar timeZoneKey: 指定的时区名称,默认为系统(DLA服务所在region)当前时区。

    • varchar timeUnit:设置时间点间隔的时间度量单位。

      目前时间度量单位支持YEAR、QUARTER、MONTH、WEEK、DAY、HOUR、MINUTE、SECOND、MILLISECOND。

  • 返回值类型:ARRAY[BIGINT]。

  • 示例:

    1. SELECT event_name,
    2. event_interval(event_time, 'second') as a
    3. FROM sample
    4. GROUP BY 1
    5. ORDER BY 1;
    6. +-----------------+-----------------------+
    7. | event_name | a |
    8. +-----------------+-----------------------+
    9. | 加入购物车 | [] |
    10. | 收藏商品 | [] |
    11. | 浏览商品 | [6449] |
    12. | 生成订单 | [] |
    13. | 登陆 | [12974, 33604, 12783] |
    14. | 退订商品 | [] |
    1. SELECT event_name,
    2. event_interval(true, 3, event_time, current_timezone(), 'millisecond') as a
    3. FROM sample
    4. GROUP BY 1
    5. ORDER BY 1;
    6. +-----------------+-----------------------------------+
    7. | event_name | a |
    8. +-----------------+-----------------------------------+
    9. | 加入购物车 | [] |
    10. | 收藏商品 | [] |
    11. | 浏览商品 | [-6449562] |
    12. | 生成订单 | [] |
    13. | 登陆 | [-12783072, -33604260, -12974700] |
    14. | 退订商品 | [] |
    1. SELECT event_name,
    2. event_interval(event_time, 'UTC', 'day') as a
    3. FROM sample
    4. GROUP BY 1
    5. ORDER BY 1;
    6. +-----------------+-----------+
    7. | event_name | a |
    8. +-----------------+-----------+
    9. | 加入购物车 | [] |
    10. | 收藏商品 | [] |
    11. | 浏览商品 | [0] |
    12. | 生成订单 | [] |
    13. | 登陆 | [0, 0, 0] |
    14. | 退订商品 | [] |