DataWorks目前仅支持绑定E-MapReduce(简称EMR)的新版集群(即DataLake新版数据湖集群),原有涉及旧版集群的项目需通过迁移方式,移至DataWorks进行数据开发。本文为您介绍,如何通过一键迁移方式及文件导入导出方式,将EMR项目迁移至DataWorks工作空间。
前提条件
- 已开通DataWorks服务并创建DataWorks工作空间。详情请参见创建并管理工作空间。
- 如您是RAM用户,需拥有空间管理员、
AliyunDataWorksFullAccess
和AliyunEMRFullAccess
权限,才可执行迁移操作。授权详情请参见添加空间成员并管理成员角色权限、为RAM用户授权。 - EMR集群已绑定至DataWorks工作空间中,绑定方法请参见绑定E-MapReduce计算引擎。
背景信息
DataWorks为您提供了以下三种方式,将EMR集群下的工作流(节点和调度配置)、手动任务、资源、数据源迁移至DataWorks工作空间中:
- 方式一:通过EMR控制台一键迁移至DataWorks
- 方式二:通过DataWorks迁移助手导出EMR项目并导入至DataWorks
- 方式三:通过工具打包EMR项目,再使用DataWorks迁移助手导入至DataWorks
EMR项目原作业类型与迁移至DataWorks后作业类型的映射关系如下。
原作业类型 | 迁移后作业类型 |
---|---|
SQOOP | DI(离线同步任务) |
SPARK_SQL | EMR_SPARK_SQL |
SPARK_SHELL | EMR_SPARK_SHELL |
SPARK | EMR_SPARK |
SHELL | EMR_SHELL |
PRESTO_SQL | EMR_PRESTO |
MR | EMR_MR |
IMPALA_SQL | EMR_IMPALA |
HIVE_SQL | EMR_HIVE |
HIVE | EMR_SHELL |
方式一:通过EMR控制台一键迁移至DataWorks
您可将存放在EMR集群中的配置信息,通过EMR控制台一键迁移操作,迁移至DataWorks工作空间中,具体操作步骤如下。
- 登录阿里云E-MapReduce控制台。
- 选择集群所在地域后,单击顶部菜单栏的数据开发。
- 创建一键迁移任务。
- 系统启动迁移项目。您可单击去导入列表查看迁移进度,详情请参见查看迁移报告与结果。
方式二:通过DataWorks迁移助手导出EMR项目并导入至DataWorks
您可通过DataWorks控制台,将存储在EMR集群下的工作流(节点和调度配置)、手动任务、资源、数据源,以文件的形式导出,然后再导入至DataWorks工作空间中。不同版本的DataWorks迁移助手支持的策略不同,不同账号角色操作权限也存在差异,详情请参见使用限制。
- 登录DataWorks迁移助手。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 选择工作空间所在地域后,单击相应工作空间后的数据开发。
- 单击左上方的
图标,选择 。
- 生成导出文件。
- 导入文件至DataWorks。
方式三:通过工具打包EMR项目,再使用DataWorks迁移助手导入至DataWorks
您可通过命令打包EMR项目,再使用DataWorks迁移助手导入该项目至DataWorks,实现项目迁移。说明 使用该方式前,您本地需安装Python环境。
- 打包EMR项目至本地。
- 通过迁移助手导入本地EMR项目包。
查看迁移报告与结果
项目迁移完成后,您可在DataWorks迁移助手中查看已执行的迁移任务进度、结果以及相关报告(导入报告、导出报告)。
- 导入在调度引擎作业导入页面,单击对应任务操作列的查看导入报告。
- 导出在调度引擎作业导出页面,单击EMR,在该页签下单击对应任务操作列的查看导出报告。