一键导入公共数据集

更新时间: 2023-07-25 09:41:43

HoloWeb支持使用可视化方式一键导入公共数据集,方便您快速完成公共数据导入并查询。本文为您介绍如何使用HoloWeb创建一键导入任务并查看任务状态信息。

背景信息

HoloWeb支持一键导入tpch_10gtpch_100ggithub_event三个公共数据集,会占用10~100 GB存储空间。其中:

  • tpch_10gtpch_100g公共数据集:模拟零售场景的公开数据集,两个数据集数据量分别为10 GB和100 GB,详情请参见测试方案介绍

  • github_event公共数据集:GitHub官方公开事件数据集,详情请参见业务与数据认知

前提条件

  • Hologres实例版本为 V1.3.13及以上版本。

  • HoloWeb中已登录实例,详情请参见登录实例

注意事项

  • 仅华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北3(张家口)地域的Hologres实例支持一键导入公共数据集功能。

  • 执行一键导入公共数据集的用户需要有新建Schema、新建表、写入数据等权限,授权操作请参见Hologres权限模型概述

  • 公共数据集导入任务执行时长预计3~20分钟,具体受实例规格等因素影响。请您提前规划计算资源,避免影响线上业务。

  • 公共数据集导入任务会自动创建两个Schema及若干外部表和内部表,请检查数据库中已有的Schema、外部表和内部表,避免名称相同,以免数据误删。

新建公共数据集导入任务

  1. 进入HoloWeb开发页面,详情请参见连接HoloWeb

  2. 在HoloWeb开发页面的顶部菜单栏,单击数据方案

  3. 数据方案页面,单击左侧导航栏的一键导入公共数据集

  4. 一键导入公共数据集页面,单击新建公共数据集导入任务

  5. 新建公共数据集导入任务页面,选择实例名数据库公共数据集名后,单击提交

    image.png

查看公共数据集导入任务信息

  1. 一键导入公共数据集页面,选择实例名数据库后,单击查询,查看公共数据集任务列表。

    image.png

    任务列表包含如下信息和操作:

    • 信息:序号实例名数据库公共数据集名状态执行进度(指已完成SQL数/总SQL数)、创建时间结束时间

    • 操作:详情停止重新运行删除执行历史

  2. 任务状态执行成功时,公共数据集导入任务即完成,可以进一步进行数据分析。

删除公共数据集

执行如下SQL,删除公共数据集所在Shema以及所有依赖项(以tpch_100g数据集为例),请谨慎使用,以防数据误删。

DROP SCHEMA hologres_dataset_tpch_100g, hologres_foreign_dataset_tpch_100g CASCADE;
阿里云首页 实时数仓 Hologres 相关技术圈