全部产品
云市场

PARQUET

更新时间:2019-07-30 10:01:26

本文介绍如何在DLA中为PARQUET类型的文件创建表。

PARQUET是Apache开源项目Hadoop支持的一种列存储文件格式,同一份数据以ORC格式和PARQUET格式存储时,其数据扫描性能要优于普通文本CSV格式。

前提条件

请参见文档文件格式转换,准备PARQUET格式的测试数据。

操作步骤

  1. 创建OSS Schema。

    1. CREATE SCHEMA dla_oss_db with DBPROPERTIES(
    2. catalog='oss',
    3. location 'oss://dlaossfile1/dla/'
    4. )
  2. 创建PARQUET文件表。

    1. CREATE EXTERNAL TABLE customer_parqet_date (
    2. c_custkey int,
    3. c_name string,
    4. c_address string,
    5. c_nationkey int,
    6. c_phone string,
    7. c_acctbal double,
    8. c_mktsegment string,
    9. c_comment string
    10. )
    11. STORED AS PARQUET
    12. LOCATION 'oss://dlaossfile1/TPC-H/customer_parquet/'

    STORED AS PARQUET:指定文件格式为PARQUET。

  3. 查看PARQUET文件数据。

    1. SELECT * FROM customer_parqet_date

    结果parquet