数据迁移概述

本文介绍如何数据迁移至OSS或OSS-HDFS。

将数据迁移至OSS

您可以基于实际业务需求将本地、第三方存储设备或者OSS源存储空间(Bucket)内的数据迁移至OSS目标Bucket,具体如下表所示:

迁移方式

说明

相关文档

在线迁移

使用在线迁移服务,您可以将第三方数据轻松迁移至阿里云对象存储OSS。迁移时无需搭建迁移环境,可在线提交迁移任务并随时监控迁移过程。

ossimport

适用于各类数据源的历史数据批量迁移到OSS,包括本地、七牛、百度BOS、Amazon S3、Azure Blob、又拍云、腾讯云COS、金山KS3、HTTP、OSS等,并可根据需要扩展。

使用ossimport迁移数据

ossutil

适用于各类数据源的历史数据批量迁移到OSS。

ossutil

镜像回源

适用于客户源站无缝迁移数据到OSS。即服务已在源站或者在其他云产品上运行,需迁移到OSS,但又不能停止服务。在ossimport完成历史数据迁移且业务切换到OSS后,当访问的数据不在OSS,会触发镜像回源到源站抓取,并下载到OSS中。

例如某服务已经在您建立的源站或者在其他云产品上运行。现因业务发展,需要将服务迁移至OSS,迁移时需保证服务的正常运行。您可以在迁移过程中使用镜像回源规则获取未迁移至OSS的部分数据,保证服务的正常运行。

回源概述

数据复制

通过OSS数据复制功能,实现同账号、跨账号下的相同或不同地域的数据复制。

离线迁移(闪电立方)

适用于线下数据中心大规模数据迁移上云,支持TB到PB级别数据上云,可通过离线迁移服务将数据迁移至阿里云OSS。

什么是离线迁移(闪电立方)

OSS API或SDK

使用OSS API或SDK编写代码实现数据上云,适用于有特性需求,且具有较强开发能力的用户。

OSS外部表(gpossext功能)

云原生数据仓库AnalyticDB PostgreSQL版支持通过OSS外部表(gpossext功能),将数据导入或导出阿里云对象存储OSS。

阿里云Jindo DistCp

阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。

迁移HDFS数据到OSS

将数据迁移至OSS-HDFS

OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。您可以将数据迁移至OSS-HDFS,或者在OSS-HDFS的不同Bucket之间迁移数据,具体如下:

迁移方式

说明

相关文档

阿里云Jindo DistCp

阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。

JindoDistJob工具

JindoDistJob工具支持半托管JindoFS全量和增量迁移文件元数据,支持您在不迁移数据块的同时平稳切换到JindoFS服务化的方案上。

迁移半托管JindoFS集群数据到OSS-HDFS服务

JindoTable MoveTo命令

MoveTo命令可以在拷贝底层数据结束后,自动更新元数据,使表和分区的数据完整地迁移到新路径;可以通过条件筛选,一次拷贝大量分区。在数据迁移过程中,还使用了多种措施保护数据的完整性,确保数据安全。

迁移Hive表和分区数据到OSS-HDFS服务