数据迁移概述
本文介绍如何数据迁移至OSS或OSS-HDFS。
将数据迁移至OSS
您可以基于实际业务需求将本地、第三方存储设备或者OSS源存储空间(Bucket)内的数据迁移至OSS目标Bucket,具体如下表所示:
迁移方式 | 说明 | 相关文档 |
在线迁移 | 使用在线迁移服务,您可以将第三方数据轻松迁移至阿里云对象存储OSS。迁移时无需搭建迁移环境,可在线提交迁移任务并随时监控迁移过程。 | |
ossimport | 适用于各类数据源的历史数据批量迁移到OSS,包括本地、七牛、百度BOS、Amazon S3、Azure Blob、又拍云、腾讯云COS、金山KS3、HTTP、OSS等,并可根据需要扩展。 | |
ossutil | 适用于各类数据源的历史数据批量迁移到OSS。 | |
镜像回源 | 适用于客户源站无缝迁移数据到OSS。即服务已在源站或者在其他云产品上运行,需迁移到OSS,但又不能停止服务。在ossimport完成历史数据迁移且业务切换到OSS后,当访问的数据不在OSS,会触发镜像回源到源站抓取,并下载到OSS中。 例如某服务已经在您建立的源站或者在其他云产品上运行。现因业务发展,需要将服务迁移至OSS,迁移时需保证服务的正常运行。您可以在迁移过程中使用镜像回源规则获取未迁移至OSS的部分数据,保证服务的正常运行。 | |
数据复制 | 通过OSS数据复制功能,实现同账号、跨账号下的相同或不同地域的数据复制。 | |
离线迁移(闪电立方) | 适用于线下数据中心大规模数据迁移上云,支持TB到PB级别数据上云,可通过离线迁移服务将数据迁移至阿里云OSS。 | |
OSS API或SDK | 使用OSS API或SDK编写代码实现数据上云,适用于有特性需求,且具有较强开发能力的用户。 | |
OSS外部表(gpossext功能) | 云原生数据仓库AnalyticDB PostgreSQL版支持通过OSS外部表(gpossext功能),将数据导入或导出阿里云对象存储OSS。 | |
阿里云Jindo DistCp | 阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。 |
将数据迁移至OSS-HDFS
OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。您可以将数据迁移至OSS-HDFS,或者在OSS-HDFS的不同Bucket之间迁移数据,具体如下:
迁移方式 | 说明 | 相关文档 |
阿里云Jindo DistCp | 阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。 | |
JindoDistJob工具 | JindoDistJob工具支持半托管JindoFS全量和增量迁移文件元数据,支持您在不迁移数据块的同时平稳切换到JindoFS服务化的方案上。 | |
JindoTable MoveTo命令 | MoveTo命令可以在拷贝底层数据结束后,自动更新元数据,使表和分区的数据完整地迁移到新路径;可以通过条件筛选,一次拷贝大量分区。在数据迁移过程中,还使用了多种措施保护数据的完整性,确保数据安全。 |