本文为您介绍如何通过DataWorks数据同步功能,迁移HDFS数据至MaxCompute,或从MaxCompute迁移数据至HDFS。无论您使用Hadoop还是Spark,均可以与MaxCompute进行双向同步。
前提条件
- 开通MaxCompute并创建项目。
本文以在华东1(杭州)地域创建项目bigdata_DOC为例。详情请参见开通MaxCompute。
- 搭建Hadoop集群。
进行数据迁移前,您需要保证Hadoop集群环境正常。本文使用阿里云EMR服务自动化搭建Hadoop集群,详情请参见创建集群。
本文使用的EMR Hadoop版本信息如下:- EMR版本:EMR-3.11.0
- 集群类型:HADOOP
- 软件信息:HDFS2.7.2/YARN2.7.2/Hive2.3.3/Ganglia3.7.2/Spark2.2.1/HUE4.1.0/Zeppelin0.7.3/Tez0.9.1/Sqoop1.4.6/Pig0.14.0/ApacheDS2.0.0/Knox0.13.0
Hadoop集群使用经典网络,地域为华东1(杭州),主实例组ECS计算资源配置公网及内网IP,高可用选择为否(非HA模式)。
步骤一:数据准备
- Hadoop集群创建测试数据。
- 利用DataWorks新建目标表。