校验OSS-HDFS服务文件内容
通过JindoDistCp将HDFS数据迁移到OSS-HDFS时,支持对OSS-HDFS服务的文件内容进行检验。
前提条件
使用4.6.2及以上版本JindoData。下载地址,请参见GitHub。
操作步骤
计算通过JindoDistCp迁移的目标目录的文件checksum。
命令格式
jindo distjob -checksum --src <src> --dest <dest> --blockSize <blockSize> --recalculate
参数说明
参数
是否必选
说明
--src <src>
是
待执行文件内容校验的服务路径,仅支持OSS-HDFS服务或者HDFS服务路径。
--dest <dest>
是
输出checksum文件的目标路径。
--blockSize <blockSize>
否
源文件写入的blockSize,单位为字节。
默认值:134217728
--recalculate
否
仅当--src参数值配置为OSS-HDFS服务路径并启用该选项时,会在读取文件时重新计算checksum。
使用示例
例如,已开通OSS-HDFS服务的Bucket名称为examplebucket,需要执行文件内容校验的路径为oss://examplebucket/test,输出checksum文件的目标路径为oss://ossbucket/test-dls,执行命令如下:
jindo distjob -checksum --src oss://dlsbucket/test --dest oss://ossbucket/test-dls --recalculate
计算输出JindoDistCp迁移的源目录的文件checksum。
例如,JindoDistCp的源目录为hdfs:///test,输出checksum文件到OSS目录oss://ossbucket/test-hdfs,执行命令如下:
jindo distjob -checksum --src hdfs:///test --dest oss://ossbucket/test-hdfs
通过JindoDistCp的--diff选项对比步骤1和步骤2输出的文件checksum。
hadoop jar jindo-distcp-tool-${version}.jar --src oss://ossbucket/test-hdfs --dest oss://ossbucket/test-dls --diff