本文以OSS为例,介绍如何将Hadoop文件系统上的数据迁移至JindoFS。

迁移数据

  • Hadoop FsShell

    对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:

    • hadoop dfs -cp  hdfs://emr-cluster/README.md  jfs://emr-jfs/
    • hadoop dfs -cp  oss://oss_bucket/README.md  jfs://emr-jfs/
  • DistCp

    对于文件较多或者数据量较大的场景,推荐使用Hadoop内置的DistCp进行同步:

    • hadoop distcp  hdfs://emr-cluster/files  jfs://emr-jfs/output/
    • hadoop distcp  oss://oss_bucket/files  jfs://emr-jfs/output/
    说明 更多DistCp参数可参见DistCp Version2 Guide

利用JindoFS缓存模式

缓存模式是兼容现有OSS的存储方式:文件会以原生对象的形式存储在OSS上,同时OSS文件通过JindoFS缓存模式访问时,也有机会在本地进行数据和元数据的缓存,加速访问,具体可参见JindoFS 缓存模式