通过共享样例数据集,可快速验证数据处理性能、优化查询效率或进行功能验证,是开发、测试及学习的理想资源。
创建数据集
登录数据湖构建控制台。
单击左侧导航栏数据目录。
点击
,找到名为dlf_samples的数据共享,并创建Catalog。单击Catalogs页签,可以看到创建后的Catalog。
查询数据集
数据共享目录提供了多种规格的 TPC-DS 标准样例数据库,适用于不同规模的数据测试、分析及基准性能评估。具体包含以下数据集:
样例数据库名称 | 样例数据说明 |
tpcds_paimon_sf1 | TPC-DS 1G Paimon 表 |
tpcds_paimon_sf2 | TPC-DS 2G Paimon 表 |
tpcds_paimon_sf10 | TPC-DS 10G Paimon 表 |
tpcds_paimon_sf100 | TPC-DS 100G Paimon 表 |
tpcds_iceberg_sf1 | TPC-DS 1T Iceberg 表 |
说明
支持在其他平台上(如EMR、Flink等)关联此Catalog,进行数据查询,详情请参见引擎对接。
该文章对您有帮助吗?