共享样例数据集

通过共享样例数据集,可快速验证数据处理性能、优化查询效率或进行功能验证,是开发、测试及学习的理想资源。

创建数据集

  1. 登录数据湖构建控制台

  2. 单击左侧导航栏数据目录

  3. 点击数据共享 > 我接收的,找到名为dlf_samples的数据共享,并创建Catalog

    image

  4. 单击Catalogs页签,可以看到创建后的Catalog。

    image

查询数据集

数据共享目录提供了多种规格的 TPC-DS 标准样例数据库,适用于不同规模的数据测试、分析及基准性能评估。具体包含以下数据集:

样例数据库名称

样例数据说明

tpcds_paimon_sf1

TPC-DS 1G Paimon 表

tpcds_paimon_sf2

TPC-DS 2G Paimon 表

tpcds_paimon_sf10

TPC-DS 10G Paimon 表

tpcds_paimon_sf100

TPC-DS 100G Paimon 表

tpcds_iceberg_sf1

TPC-DS 1T Iceberg 表

说明

支持在其他平台上(如EMR、Flink等)关联此Catalog,进行数据查询,详情请参见引擎对接