本文介绍如何数据迁移至OSS或OSS-HDFS。

将数据迁移至OSS

您可以基于实际业务需求,将本地、第三方存储设备或者OSS源存储空间(Bucket)内的数据迁移至OSS目标Bucket,具体如下表所示:

迁移方式说明相关文档
在线迁移使用在线迁移服务,您可以将第三方数据轻松迁移至阿里云对象存储OSS,也可以在对象存储OSS之间进行跨账号、跨地域、以及同地域内灵活的数据迁移。迁移时无需搭建迁移环境,可在线提交迁移任务并随时监控迁移过程。
ossimport适用于各类数据源的历史数据批量迁移到OSS,包括本地、七牛、百度BOS、Amazon S3、Azure Blob、又拍云、腾讯云COS、金山KS3、HTTP、OSS等,并可根据需要扩展。使用ossimport迁移数据
ossutil适用于各类数据源的历史数据批量迁移到OSS。ossutil
镜像回源适用于客户源站无缝迁移数据到OSS。即服务已在源站或者在其他云产品上运行,需迁移到OSS,但又不能停止服务。在ossimport完成历史数据迁移且业务切换到OSS后,当访问的数据不在OSS,会触发镜像回源到源站抓取,并下载到OSS中。

例如某服务已经在您建立的源站或者在其他云产品上运行。现因业务发展,需要将服务迁移至OSS,迁移时需保证服务的正常运行。您可以在迁移过程中使用镜像回源规则获取未迁移至OSS的部分数据,保证服务的正常运行。

回源概述
OSS跨区域复制 适用于源BucketA、目的BuketB都不是归档存储,且分属不同区域场景。跨区域复制(Cross-Region Replication)是跨不同OSS数据中心(地域)的存储空间(Bucket)自动、异步(近实时)复制文件(Object),它会将Object的创建、更新和删除等操作从源存储空间复制到不同区域的目标存储空间。
说明
  • 可通过设置跨区域复制功能指定文件名前缀进行同步,只同步特定目录。
  • 当源Bucket或目标Bucket是归档存储时,不支持设置跨区域复制。用户可以使用OSS API/SDK编写代码,以实现同步。
跨区域复制概述
离线迁移(闪电立方)适用于线下数据中心大规模数据迁移上云,支持TB到PB级别数据上云,可通过离线迁移服务将数据迁移至阿里云OSS。什么是离线迁移(闪电立方)
OSS API或SDK 使用OSS API或SDK编写代码实现数据上云,适用于用户有特性需求,且有较强开发能力。
OSS外部表(gpossext功能)云原生数据仓库AnalyticDB PostgreSQL版支持通过OSS外部表(gpossext功能),将数据导入或导出阿里云对象存储OSS。
阿里云Jindo DistCp阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。从HDFS迁移数据到OSS

将数据迁移至OSS-HDFS

OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。您可以将数据迁移至OSS-HDFS,或者在OSS-HDFS的不同Bucket之间迁移数据,具体如下:

迁移方式说明相关文档
阿里云Jindo DistCp阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。在OSS-HDFS服务不同Bucket之间迁移数据
JindoDistJob工具JindoDistJob工具支持半托管JindoFS全量和增量迁移文件元数据,支持您在不迁移数据块的同时平稳切换到JindoFS服务化的方案上。将半托管JindoFS集群迁移到OSS-HDFS服务
JindoTable MoveTo命令MoveTo命令可以在拷贝底层数据结束后,自动更新元数据,使表和分区的数据完整地迁移到新路径;可以通过条件筛选,一次拷贝大量分区。在数据迁移过程中,还使用了多种措施保护数据的完整性,确保数据安全。使用JindoTable MoveTo命令将Hive表和分区数据迁移至OSS-HDFS服务