文档

迁移Hive数据

更新时间:

通过Catalog、X2DorisDataWorks和OSS Load,都可以将Hive数据迁移到云数据库 SelectDB 版。您可依据迁移的数据量和业务场景,选择合适的方式完成数据迁移。本文为您介绍Hive的离线数据迁移到云数据库 SelectDB 版的各个方式以及方式选择规则。

方式选择

根据不同的业务场景,选择合适您的迁移方式。具体的方式选择可以参考如下规则:

方式

适用场景

推荐原因

操作步骤

Catalog

数据存储在阿里云平台。

说明

包括阿里云EMR集群等场景。

  • 可避免迁移使用的流量费用。

    说明

    Hive与SelectDB在同一VPC下,迁移使用的是内网流量。

  • 不需要依赖其他外部组件。

Hive数据源

OSS Load

数据未存储在阿里云平台。

可避免迁移使用的流量费用。

说明

通过OSSLoad从对象存储中将数据迁移到SelectDB。这个过程使用内网流量进行数据迁移,可避免流量费用。

OSS Load

DataWorks

数据由DataWorks托管,或者DataWorks作为数据开发平台。

迁移使用可视化平台,简单易用。

通过DataWorks导入数据

X2Doris

  • 期望迁移过程中使用尽可能少的SelectDB内部资源。

  • 期望进行一站式的库表结构迁移。

  • 迁移使用可视化平台,简单易用。

  • 使用内置的Spark,减少了迁移过程中SelectDB内部资源占用。

  • 迁移过程中允许进行库表结构定义。

导入Hive源数据

增量数据迁移说明

实际生产环境中,Hive数据主要分为离线数据和增量数据,由于Hive数据迁移到SelectDB,通常的使用场景是拷贝一份数据到数据仓库进行查询加速,因此对于增量数据的迁移,可以考虑以下方式:

  • 在生产Hive数据时并行写入一份数据到SelectDB

  • 通过周期性作业读取Hive中的分区数据写入SelectDB

相关文档

更多Hive详情,请参见Hive数据源