全部产品
云市场

Parquet

更新时间:2019-06-17 10:48:32

本文以customer.tbl为例,详细为您介绍如何将普通文本文件转成Parquet格式的文件。

存储地址

操作步骤

  1. 创建OSS Schema。

    1. CREATE SCHEMA dla_oss_db with DBPROPERTIES(
    2. catalog='oss',
    3. location 'oss://dlaossfile1/TPC-H/'
    4. )
  2. 在DLA中创建customer_txt表,LOCATION为OSS中customer.tbl的路径。

    1. CREATE EXTERNAL TABLE customer_txt (
    2. c_custkey int,
    3. c_name string,
    4. c_address string,
    5. c_nationkey int,
    6. c_phone string,
    7. c_acctbal double,
    8. c_mktsegment string,
    9. c_comment string
    10. )
    11. ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
    12. STORED AS TEXTFILE LOCATION 'oss://dlaossfile1/TPC-H/customer/customer.tbl'
  3. 在DLA中创建目标表customer_parquet,LOCATION设置为OSS中的您需要的位置。

    目标目录

    注意:LOCATION必须是OSS中已经存在的目录,并以/结尾。

    1. CREATE EXTERNAL TABLE customer_parquet (
    2. c_custkey int,
    3. c_name string,
    4. c_address string,
    5. c_nationkey int,
    6. c_phone string,
    7. c_acctbal double,
    8. c_mktsegment string,
    9. c_comment string
    10. )
    11. ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
    12. STORED AS PARQUET LOCATION 'oss://dlaossfile1/TPC-H/customer_parquet/'

    STORED AS PARQUET:指定文件的存储格式为Parquet。

  4. 执行INSERT...SELECT语句,将customer_txt表中的数据插入customer_parquet表中。

    1. INSERT INTO customer_parquet SELECT * FROM customer_txt;
  5. 查看customer_parquet数据。

    INSERT...SELECT语句执行成功后,在OSS中查看生成的Parquet数据文件。

    查看存储文件parqet

更多信息

创建Parquet格式的表