首页 对象存储 OSS 用户指南 数据湖管理 校验OSS-HDFS服务文件内容

校验OSS-HDFS服务文件内容

通过JindoDistCp将HDFS数据迁移到OSS-HDFS时,支持对OSS-HDFS服务的文件内容进行检验。

前提条件

使用4.6.2及以上版本JindoData。下载地址,请参见GitHub

操作步骤

  1. 计算通过JindoDistCp迁移的目标目录的文件checksum。

    • 命令格式

      jindo distjob -checksum --src <src> --dest <dest> --blockSize <blockSize> --recalculate
    • 参数说明

      参数

      是否必选

      说明

      --src <src>

      待执行文件内容校验的服务路径,仅支持OSS-HDFS服务或者HDFS服务路径。

      --dest <dest>

      输出checksum文件的目标路径。

      --blockSize <blockSize>

      源文件写入的blockSize,单位为字节。

      默认值:134217728

      --recalculate

      仅当--src参数值配置为OSS-HDFS服务路径并启用该选项时,会在读取文件时重新计算checksum。

    • 使用示例

      例如,已开通OSS-HDFS服务的Bucket名称为examplebucket,需要执行文件内容校验的路径为oss://examplebucket/test,输出checksum文件的目标路径为oss://ossbucket/test-dls,执行命令如下:

      jindo distjob -checksum --src oss://dlsbucket/test --dest oss://ossbucket/test-dls --recalculate
  2. 计算输出JindoDistCp迁移的源目录的文件checksum。

    例如,JindoDistCp的源目录为hdfs:///test,输出checksum文件到OSS目录oss://ossbucket/test-hdfs,执行命令如下:

    jindo distjob -checksum --src hdfs:///test --dest oss://ossbucket/test-hdfs
  3. 通过JindoDistCp的--diff选项对比步骤1和步骤2输出的文件checksum。

    hadoop jar jindo-distcp-tool-${version}.jar --src oss://ossbucket/test-hdfs --dest oss://ossbucket/test-dls --diff

阿里云首页 对象存储 相关技术圈