使用Jindo DistCp迁移HDFS数据到OSS-HDFS-对象存储-阿里云

如果您需要备份HDFS数据或扩展存储空间，您可以使用阿里云EMR集群的Jindo DistCp工具将HDFS数据迁移到OSS-HDFS。OSS-HDFS与Hadoop生态系统兼容，迁移后可以利用Hadoop生态系统的各种工具和框架进行数据处理和分析。

前提条件

已创建阿里云EMR-5.6.0或EMR-3.40.0及以上版本的集群。具体步骤，请参见创建集群。
自建ECS集群需具备Hadoop2.7+或3.x环境及MapReduce作业能力。通过自建ECS集群完成迁移任务前，需要自行部署JindoData（包含JindoSDK以及JindoFSx），建议下载最新版本。
已开通并授权访问OSS-HDFS服务。具体操作，请参见开通OSS-HDFS服务。

背景信息

阿里云Jindo DistCp（分布式文件拷贝工具）用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发，错误处理和恢复，把文件和目录的列表作为MapReduce任务的输入，每个任务会完成源列表中部分文件的拷贝。Jindo DistCp全量支持HDFS之间、HDFS与OSS之间、HDFS与OSS-HDFS之间以及OSS-HDFS之间数据拷贝场景，提供多种个性化拷贝参数和多种拷贝策略。

使用阿里云Jindo DistCp迁移数据时，有以下优势：

效率高，在测试场景中最高可达到1.59倍的加速。
基本功能丰富，提供多种拷贝方式和场景优化策略。
深度结合OSS，支持文件归档和压缩。
支持No-Rename拷贝，保证数据一致性。
场景全面，支持Hadoop2.7+和Hadoop3.x版本，可替代Hadoop DistCp。

操作步骤

登录EMR集群。
1. 登录EMR on ECS控制台。
2. 单击创建的EMR集群。
3. 单击节点管理页签，然后单击节点组左侧的。
4. 单击ECS ID。在ECS实例页面，单击实例ID右侧的远程连接。
  如果您希望使用SSH方式登录，请参见登录集群。

将HDFS指定路径下的数据迁移至OSS-HDFS。

执行以下命令查看HDFS下的数据。

hdfs dfs -ls /

返回结果如下：

Found 8 items
drwxrwxrwx - admin supergroup 0 2023-10-26 10:55 /.sysinfo
drwxrwxrwx - hadoop supergroup 0 2023-10-26 10:55 /apps
drwxrwxrwx - root supergroup 0 2022-08-03 15:54 /data
-rw-r----- 1 root supergroup 13 2022-08-25 11:45 /examplefile.txt
drwxrwxrwx - spark supergroup 0 2023-10-26 14:49 /spark-history
drwx-wx-wx - hive supergroup 0 2023-10-26 13:35 /tmp
drwxrwxrwx - hive supergroup 0 2023-10-26 14:48 /user
drwxrwxrwx - hadoop supergroup 0 2023-10-26 14:48 /yarn

切换至jindo-distcp-tool-${version}.jar包所在目录。
```
cd /opt/apps/JINDOSDK/jindosdk-current/tools
```
查看随EMR集群自动部署的jindo-distcp-tool的版本号。
```
ls
```

将HDFS中的数据迁移至OSS-HDFS。

全量迁移或拷贝数据

将HDFS指定目录/tmp下的数据全量迁移或拷贝到OSS-HDFS目标路径oss://examplebucket/dir。以jindo-distcp-tool-6.1.0.jar为例，您需要根据实际环境替换对应的版本号。

hadoop jar jindo-distcp-tool-6.1.0.jar --src /tmp/ --dest oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/ --hadoopConf fs.oss.accessKeyId=LTAI************************  --hadoopConf fs.oss.accessKeySecret=yourAccessKeySecret --parallelism 10

示例中涉及的各参数或选项说明如下：

参数及选项	说明	示例
--src	待迁移或拷贝的HDFS数据所在的路径。	/tmp/
--dest	OSS-HDFS中存放迁移或拷贝数据的目标路径。	oss://destbucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/
--hadoopConf	访问OSS-HDFS服务的AccessKey ID和AccessKey Secret。	AccessKey ID `LTAI************************` AccessKey Secret `yourAccessKeySecret`
--parallelism	根据集群资源调整任务并发数。	10

增量迁移或拷贝数据

如果您仅希望拷贝在上一次全量迁移或拷贝后源路径下新增的数据，此时您可以结合--update选项完成数据的增量迁移或拷贝。

例如，将HDFS指定目录data/下的数据增量迁移或拷贝到OSS-HDFS目标路径oss://destbucket/dir下。

hadoop jar jindo-distcp-tool-6.1.0.jar --src /data/ --dest oss://destbucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/ --hadoopConf fs.oss.accessKeyId=LTAI************************  --hadoopConf fs.oss.accessKeySecret=yourAccessKeySecret --update --parallelism 10

前提条件

背景信息

操作步骤

全量迁移或拷贝数据

增量迁移或拷贝数据

相关文档