HDFS创建及执行数据迁移任务_闪电立方(Data Transport)-阿里云帮助中心

本文主要介绍HDFS如何创建及执行数据迁移任务，实现数据从数据源端读取后存入闪电立方本地NAS中。

警告

如果迁移过程中设备断网或断电，可能会出现迁移数据遗漏的情况，请谨慎操作。

创建迁移任务

输入ps -ef | grep jar。
查看是否有master.jar、worker.jar、tracker.jar 三个进程存在，如果有则执行kill -9 进程号，将3个进程都停止。
到指定目录下，输入cd /mnt/cube1/software/ossimport。

说明

任务需要指定到目录层级。

执行命令，打开其中一个cfg文件，修改或填写配置文件里的下列内容。

参数名	示例
jobName	任务名，例如：example_job
srcType	数据源类型设置为hdfs
srcAccessKey	HDFS源超级管理员用户名设置为hdfs
srcSecretKey	HDFS源超级管理员用户名设置为hdfs
srcDomain	填写源端hdfs访问路径，格式为hdfs://hdfs主节点IP:hdfs服务端口，例如：hdfs：//192.168.24.247:8020
srcBucket	HDFS源默认值为hdfs
srcPrefix	填写源路径，注意后面要加上/，例如：/mnt/nas/example_dir/
destType	写入闪电立方本地NAS服务设置为local
destPrefix	闪电立方存储池1的路径为/mnt/cube1/data/，存储池2的路径：/mnt/cube2/data
auditMode	simple

重要

HDFS目录下有个console.sh脚本，以下操作均在HDFS目录下完成。

执行以下命令，部署服务
bash console.sh deploy
执行以下命令，启动服务。
bash console.sh start
执行以下命令，检查进程是否正常启动。
ps -ef | grep jar
如果有master.jar、worker.jar、tracker.jar三个进程，说明启动正常。
执行以下命令，提交迁移任务。
bash console.sh submit conf/cfg文件名

如果需要配置增量，需对cfg文件中以下3个参数进行修改。

workerTaskThreadNum调整任务线程数量。小文件数量多的情况下，适量调大线程可提升迁移速度。
jobNetFlowLimiter限制机器的网络流量。可对整机限流，也可仅对任务限流。
- 对整机限流：格式为worker-level-netflow-policy，起始时间：终止时间：限流速度（单位是字节），如果需多时间段限流，每个时间段之间用逗号间隔。
  例如：jobNetFlowLimiter=worker-level-netflow-policy,080000:200000:52428800,200000:235959:104857600，表示8点-20点限流50 MB，20点-23:59:59限流100 MB，其余时间不限流。
- 对任务限流：格式为job名称，起始时间：：终止时间：限流速度（单位是字节），如果需多时间段限流，每个时间段之间用逗号间隔。如果多任务限流，任务之间用分号间隔。
  例如：jobNetFlowLimiter=job1,080000:200000:41943040,200000:235959:62914560;job2,080000:180000:10485760,220000:235959:20971520，表示job1，8点-20点限流40 MB，20点-23:59:59限流60 MB，其余时间不限流。job2，8点-18点限流10 MB，22点-23:59:59限流20 MB，其余时间不限流。

当您任务出现失败情况时，您可以通过这个命令进行重试任务：bash console.sh retry [job_name]

在ossimport/workdir/logs/ 目录下，会存放一些日志用于记录文件的上传状态以及任务的状态。