2020年2月,MaxCompute数据存储格式全面升级为AliORC。本文通过TPC-DS测试数据对AliORC、Apache ORC和Apache Parquet进行测试对比,为您提供MaxCompute数据存储性能参照。

测试结果

  • 数据集(即24张测试表)测试结果对比数据如下。
    项目 数据存储大小 写入数据时长 读取数据时长
    AliORC与Apache ORC比较 下降了超过8% 下降了超过85% 下降了超过76%
    AliORC与Apache Parquet比较 下降了超过22% 下降了超过50% 下降了超过28%
    数据集测试结果如下。**
    参数说明如下:
    • File Size:数据存储大小,即所有表文件大小的总和。单位为字节(Byte)。
    • Writer Elapsed Time:写入数据时长,即导入TPC-DS的CSV格式数据至ORC或Parquet的时间。单位为秒。
    • Reader Elapsed Time:读取数据时长,即ORC或Parquet执行完整数据扫描的时间。单位为秒。
  • 最大单表store_sales测试结果对比数据如下。
    项目 数据存储量 写入数据时长 读取数据时长
    AliORC与Apache ORC比较 下降了超过7% 下降了超过86% 下降了超过74%
    AliORC与Apache Parquet比较 下降了超过20% 下降了超过54% 下降了超过30%
    最大单表store_sales的测试结果如下。**

测试环境

  • Apache Parquet版本:Apache Arrow C++ V0.16.0
  • Apache ORC版本:C++ V1.6.2
  • 数据集:TPC-DS 10G(SF=10)

数据集列表

TPC-DS是一个面向决策支持的测评标准,采用星型、雪花型等多维数据模式。TPC-DS包含7张事实表,17张纬度表,平均每张表有18列数据。数据和值是存在倾斜的,与真实场景相似。TPC-DS是客观衡量多个不同Hadoop版本以及SQL on Hadoop技术的最佳测试集。

本次测试数据集中包含以下24张TPC-DS表。
store_sales
catalog_sales
inventory
web_sales
store_returns
catalog_returns
web_returns
customer_demographics
customer
item
customer_address
date_dim
time_dim
catalog_page
household_demographics
promotion
store
web_page
web_site
call_center
reason
warehouse
ship_mode
income_band