本文为您介绍迁移E-MapReduce(简称EMR)元数据至数据湖元数据DLF(Data Lake Formation)中的原因及迁移流程。

迁移原因

2020年阿里云EMR推出全新的数据湖构建和统一元数据服务,为EMR用户提供了更好的统一元数据服务方案。阿里云EMR团队发现部分用户在EMR集群上,仍然使用本地MySQL和统一meta数据库(旧版功能)作为生产环境的Hive元数据存储。我们强烈建议您尽快迁移到数据湖构建DLF中,原因如下:
  • 本地MySQL是单机部署,无法保证服务高可用,容易造成服务中断。
  • 旧版功能的统一元数据,后续将逐步下线,需要迁移到新版统一元数据DLF中。
说明 如果您的集群使用自建RDS存储元数据,也可以迁移到统一元数据DLF中,以便于为您提供更好的性能和可扩展性。

数据湖元数据DLF是阿里云提供的统一元数据服务,具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与阿里云其他计算产品(例如MaxCompute、Databricks和Hologres等)无缝对接,可以扩展更丰富的计算场景。DLF详细介绍,请参见产品简介

迁移流程

阿里云EMR和DLF团队提供了完善的迁移流程及技术工具支持,同时会在整个迁移过程中做好支持和保障工作,以确保快速平滑迁移。

步骤具体描述参与方预计耗时
一、准备阶段
  1. 填写元数据迁移登记表
  2. 请使用钉钉搜索钉钉群号33719678加入阿里云EMR元数据迁移群。

    阿里云EMR团队会分派工程师对接。

  3. 阿里云EMR团队对客户集群和实际使用情况进行摸底,确定迁移的可行性及排期。
阿里云EMR团队+客户2小时
二、迁移阶段
  1. 暂停集群上运行的任务和停止元数据服务。
  2. 备份用户现有元数据内容。
  3. 在DLF上通过元数据迁移功能进行迁移和验证。
  4. 切换集群元数据配置至DLF元数据。
  5. 恢复业务任务。
阿里云EMR团队+客户30分钟
三、验证阶段观察作业运行一周或者更长时间,查看运行结果。
  • 如果正常运行,则迁移成功。
  • 如果遇到问题,则需要定位分析,可以根据实际情况确定是在线解决还是进入回滚阶段。

    回滚详情,请参见步骤四

阿里云EMR团队+客户1周
(可选)四、回滚阶段
  1. 暂停业务任务。
  2. 对比DLF元数据和HMS元数据,回放增量部分。
  3. 切换集群元数据配置至HMS元数据。
  4. 启动HMS服务。
  5. 恢复业务任务并观察运行结果。
阿里云EMR团队+客户30分钟

联系我们

阿里云EMR和DLF团队,针对此次迁移提供了完善的迁移方案和技术工具支持,如有需要,请先填写元数据迁移登记表,然后使用钉钉搜索钉钉群号33719678加入钉钉迁移群,我们会安排工程师与您对接具体方案。