本文为您介绍迁移E-MapReduce(简称EMR)元数据至数据湖元数据DLF(Data Lake Formation)中的原因及迁移流程。
迁移原因
2020年阿里云EMR推出全新的数据湖构建和统一元数据服务,为EMR用户提供了更好的统一元数据服务方案。阿里云EMR团队发现部分用户在EMR集群上,仍然使用本地MySQL和统一meta数据库(旧版功能)作为生产环境的Hive元数据存储。我们强烈建议您尽快迁移到数据湖构建DLF中,原因如下:
- 本地MySQL是单机部署,无法保证服务高可用,容易造成服务中断。
- 旧版功能的统一元数据,后续将逐步下线,需要迁移到新版统一元数据DLF中。
说明 如果您的集群使用自建RDS存储元数据,也可以迁移到统一元数据DLF中,以便于为您提供更好的性能和可扩展性。
数据湖元数据DLF是阿里云提供的统一元数据服务,具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与阿里云其他计算产品(例如MaxCompute、Databricks和Hologres等)无缝对接,可以扩展更丰富的计算场景。DLF详细介绍,请参见产品简介。
迁移流程
阿里云EMR和DLF团队提供了完善的迁移流程及技术工具支持,同时会在整个迁移过程中做好支持和保障工作,以确保快速平滑迁移。
步骤 | 具体描述 | 参与方 | 预计耗时 |
---|---|---|---|
一、准备阶段 |
| 阿里云EMR团队+客户 | 2小时 |
二、迁移阶段 |
| 阿里云EMR团队+客户 | 30分钟 |
三、验证阶段 | 观察作业运行一周或者更长时间,查看运行结果。
| 阿里云EMR团队+客户 | 1周 |
(可选)四、回滚阶段 |
| 阿里云EMR团队+客户 | 30分钟 |
联系我们
阿里云EMR和DLF团队,针对此次迁移提供了完善的迁移方案和技术工具支持,如有需要,请先填写元数据迁移登记表,然后使用钉钉搜索钉钉群号33719678加入钉钉迁移群,我们会安排工程师与您对接具体方案。