本文介绍如何在DLA中为PARQUET类型的文件创建表。
PARQUET是Apache开源项目Hadoop支持的一种列存储文件格式,同一份数据以ORC格式和PARQUET格式存储时,其数据扫描性能要优于普通文本CSV格式。
请参见文档文件格式转换,准备PARQUET格式的测试数据。
创建OSS Schema。
CREATE SCHEMA dla_oss_db with DBPROPERTIES(
catalog='oss',
location 'oss://dlaossfile1/dla/'
)
创建PARQUET文件表。
CREATE EXTERNAL TABLE customer_parqet_date (
c_custkey int,
c_name string,
c_address string,
c_nationkey int,
c_phone string,
c_acctbal double,
c_mktsegment string,
c_comment string
)
STORED AS PARQUET
LOCATION 'oss://dlaossfile1/TPC-H/customer_parquet/'
STORED AS PARQUET
:指定文件格式为PARQUET。
查看PARQUET文件数据。
SELECT * FROM customer_parqet_date
在文档使用中是否遇到以下问题
更多建议
匿名提交