数据迁移概述

业务数据分散在本地数据中心、第三方云存储,或分布在不同地域、不同账号的阿里云 OSS Bucket 中,缺乏统一管理会导致运维复杂、成本高昂。您可以将这些数据高效迁移至目标 OSS Bucket,阿里云提供在线迁移服务、命令行工具及离线迁移(闪电立方)等多种方案,以满足不同业务场景下的迁移需求。

阿里云OSS间迁移

在阿里云 OSS 之间进行数据迁移时,可根据源端与目标端所属地域的不同选择合适的迁移方式,以保证迁移效率和操作便捷性。

同区域迁移

当源 Bucket 与目标 Bucket 处于同一地域时,迁移方式可根据实际场景选择:

  • 对于小至中等规模的数据且 Bucket 属于同一账号下,建议使用命令行工具 ossutil 的 cp(拷贝文件)命令进行数据迁移,支持批量文件拷贝及断点续传。

  • 对于大规模数据迁移或涉及不同账号下 Bucket 之间的迁移场景,建议使用同区域复制功能,数据无需中转下载或额外网络传输,在源端数据新增、修改、删除时自动同步到目标端,适合跨团队、跨子公司之间的数据集中与共享场景。

跨区域迁移

当源 Bucket 与目标 Bucket 跨越不同地域,例如从华东1(杭州)迁移至华北 2(北京),建议使用跨区域复制功能,利用阿里云内部网络传输,保障数据安全可靠,在源端数据新增、修改、删除时自动同步到目标端,适合异地多点协作与实时备份场景。

第三方存储迁移至OSS

当您的数据存储在其他云厂商中,需要迁移至阿里云 OSS 时,推荐使用阿里云在线迁移服务。支持包括AWS S3、腾讯云 COS、华为云 OBS、火山云 TOS、谷歌云 GCS、微软 Azure Blob等在内的多种存储服务,亦支持兼容 S3 协议的自建对象存储。迁移时无需搭建迁移环境,可在线提交迁移任务并随时监控迁移过程。可根据实际业务场景选择对应的在线迁移教程,轻松实现数据的平滑迁移。

本地文件系统迁移至OSS

小规模数据迁移

对于体量较小的数据(小于 5 GB),推荐使用 对象存储OSS控制台直接上传。该方式操作简便,无需安装额外工具或进行复杂配置,适合临时文件上传、测试数据迁移或低频次的迁移任务。可以通过浏览器界面快速完成文件上传,适用于零散文件或少量数据的快速上云需求。

中规模数据迁移

对于中等规模的数据迁移,您可以根据实际需求选择以下两种方式:

  • 如需实现常规业务数据、日志文件、备份数据等的高效传输,推荐使用命令行工具 ossutil 执行 cp(上传文件)命令,支持批量文件上传、断点续传及并发加速等功能。

  • 当您的本地网络环境较为复杂,或者希望实现云端对迁移任务的统一调度和集中管理时,推荐使用阿里云在线迁移服务实现LocalFS迁移至OSS。该服务提供托管式的数据迁移解决方案,支持任务的创建、监控和管理,简化了运维复杂度,适合对迁移过程有集中管控需求的企业客户。

大规模数据迁移

对于超大规模数据迁移,您可以根据实际需求选择以下两种方式:

  • 使用阿里云在线迁移服务,迁移时无需搭建迁移环境,可在线提交迁移任务,并实时监控迁移进度,适合需要灵活调度且能够通过公网进行传输的业务场景。

  • 当您的数据受公网带宽限制,或需要从线下数据中心迁移时,推荐使用离线迁移(闪电立方),适合数据中心整体上云、大型企业归档文件及历史影像资料等场景。离线迁移(闪电立方)专为 TB 级至 PB 级的大规模数据迁移设计,通过物理介质完成数据采集和传输,彻底避免公网带宽瓶颈,显著提升迁移效率。

HTTP/HTTPS 源迁移至OSS

若数据存储在 HTTP/HTTPS 源上,可使用阿里云在线迁移服务将数据高效、平滑地将数据从HTTP/HTTPS源迁移至OSS。迁移过程中无需搭建额外环境,只需在线提交迁移任务,即可实时监控任务进度和状态,确保数据安全可靠地完成迁移。

大数据存储迁移至OSS

迁移 HDFS 数据至 OSS

对于分布在分布式文件系统(HDFS)中的大规模数据,推荐使用阿里云Jindo DistCp迁移HDFS数据到OSS。Jindo DistCp 是一款基于 MapReduce 的分布式文件拷贝工具,可在大规模集群内部或不同集群之间高效传输文件。通过将文件和目录列表作为 MapReduce 任务的输入,切分为多个并行任务分发执行,每个任务负责拷贝源列表中的部分数据,从而提升传输效率,支持容错、断点续传和异常恢复,能够在 TB 甚至 PB 级别的大数据迁移中确保稳定性和数据完整性。适用于大数据计算、数据湖建设等场景。

迁移 OSS 外部表(gpossext)数据至 OSS

当数据以 OSS 外部表(gpossext)的形式存储,并需要在 OSS 与数据仓库之间高效导入导出时,建议使用云原生数据仓库AnalyticDB PostgreSQL版将数据并行导出到OSS,支持通过 gpossext 功能将 OSS 中的数据并行导入到 AnalyticDB PostgreSQL,或将数据并行导出到 OSS。基于分布式架构,迁移过程具备高并发和高吞吐能力,可大幅缩短数据传输时间,同时保障数据安全与完整性。适用于大规模数据分析、历史数据归档以及跨系统数据交换等业务场景。

大数据存储迁移至OSS-HDFS

OSS-HDFS 服务(又称 JindoFS 服务)是一款云原生数据湖存储产品,基于统一的元数据管理能力,在完全兼容 HDFS 文件系统接口的同时提供了完整的 POSIX 能力支持,能够更好地适配大数据计算与 AI 训练等数据湖场景。既可以将现有数据迁移至 OSS-HDFS,也可以在不同 OSS-HDFS Bucket 之间进行高效的数据迁移。

迁移 HDFS 数据至 OSS-HDFS

针对传统 HDFS 集群数据迁移,可使用阿里云Jindo DistCp 工具迁移HDFS数据到OSS-HDFS,能够实现集群内部或跨集群的大规模文件分发,支持自动错误检测、重试及任务恢复,提高了迁移任务的稳定性和效率。其工作原理是将文件和目录列表作为 MapReduce 任务的输入,每个任务负责拷贝部分文件,适合批量处理海量数据的迁移场景。借助 Jindo DistCp,用户可以实现平滑迁移,快速将数据导入 OSS-HDFS,助力大数据平台向云原生转型。

OSS-HDFS 间数据迁移

对于已部署 OSS-HDFS 服务的用户,阿里云同样支持使用阿里云Jindo DistCp 工具迁移OSS-HDFS服务不同Bucket之间的数据。适用于数据分区调整、存储资源优化或跨区域数据调度需求,确保业务数据始终保持一致性和高可用性。

迁移半托管 JindoFS 集群数据至 OSS-HDFS

使用半托管 JindoFS 集群时,可通过JindoDistJob工具迁移半托管JindoFS集群数据到OSS-HDFS服务,支持全量和增量迁移,并可在不迁移数据块的情况下,平稳切换到 JindoFS 服务化方案,确保迁移过程业务无感知,适合需要快速切换存储架构的场景。

迁移 Hive 表和分区数据至 OSS-HDFS

实现结构化数据迁移,可使用 JindoTable MoveTo 命令迁移Hive表和分区数据到OSS-HDFS服务。该命令在完成底层数据拷贝后,会自动更新元数据,使表与分区完整迁移到新路径。支持条件筛选,可一次性迁移大量分区,并通过多重数据校验机制保障数据完整性与安全性,非常适合结构化大数据集的迁移。

配置无停机迁移

建议:先确定迁移方式,再根据业务需求额外配置镜像回源,以实现无停机迁移。

若需要在迁移过程中保持业务连续性,实现无停机迁移,可额外配置镜像回源。在服务切换至OSS后,任何尚未迁移的数据被访问时,系统会自动从源站拉取,确保业务平稳过渡,用户无感知。迁移流程通常为:先完成历史数据迁移并将业务入口切换至 OSS,再由镜像回源自动获取未迁移的数据,实现数据逐步回填,最终完成全量上云。

例如,某业务原本部署在其他云存储平台,由于业务发展需要迁移至 OSS,但不能停止线上服务。此时可配置镜像回源规则,在迁移过程中自动抓取未迁移的数据并同步到 OSS,保障服务持续稳定运行。