本文以OSS为例,介绍如何将Hadoop文件系统上的数据迁移至JindoFS。
迁移数据
-
Hadoop FsShell
对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:
hadoop dfs -cp hdfs://emr-cluster/README.md jfs://emr-jfs/
hadoop dfs -cp oss://oss_bucket/README.md jfs://emr-jfs/
-
DistCp
对于文件较多或者数据量较大的场景,推荐使用Hadoop内置的DistCp进行同步:
hadoop distcp hdfs://emr-cluster/files jfs://emr-jfs/output/
hadoop distcp oss://oss_bucket/files jfs://emr-jfs/output/
说明 DistCp参数详情,请参见DistCp Version2 Guide。
利用JindoFS缓存模式
缓存模式是兼容现有OSS的存储方式,文件会以原生对象的形式存储在OSS上,同时OSS文件通过JindoFS缓存模式访问时,也有机会在本地进行数据和元数据的缓存、加速访问,具体请参见JindoFS缓存模式。