元数据迁移提供可视化的元数据迁移能力,可以帮您快速地将Hive Metastore的元数据迁移到数据湖构建(DLF)中。
使用限制
- 支持的Hive版本:2.3.x ,3.1.x 版本。 
- 支持的数据库类型:MySQL。 
创建元数据迁移任务
- 登录数据湖构建控制台。 
- 在左侧菜单栏,单击。 
- 在迁移任务页签,单击创建迁移任务。 
- 配置以下源库信息,单击下一步。 - 参数 - 说明 - 数据库类型 - 仅支持MySQL类型。 - MySQL类型 - 根据Hive元数据类型选择。 - Aliyun RDS:阿里云官网提供的RDS,可参考云数据库RDS MySQL版。需选择RDS实例,填写数据库名称、用户名和密码。 重要- RDS元数据仅支持阿里云VPC连接方式访问。 
- 其他MySQL:EMR集群内置MySQL、自建MySQL或其他MySQL数据库。需填写JDBC URL、用户名和密码。 重要- 建议JDBC URL填写内网IP,并通过阿里云VPC连接方式访问;如果选择公网连接,则填写公网IP。 
 - 网络连接方式 - 当前支持阿里云VPC、公网连接两种方式。请根据上一步MySQL类型进行配置。 - 阿里云VPC:选择与EMR集群或RDS匹配的专有网络VPC、交换机vSwitch和安全组,避免网络出现问题。 
- 公网连接:当选择公网连接时,在EMR控制台上添加规则,使EMR集群3306端口(默认)对DLF弹性公网IP开放。 说明- 添加端口详情,请参见添加安全组规则。 
- 各地域DLF弹性公网IP,请参见DLF Region和弹性公网IP对照表。 
 
 
- 配置以下迁移任务信息,单击下一步。 - 参数 - 说明 - 任务名称 - 输入元数据迁移任务的名称。 - 任务描述 - 可选,输入您的一些任务备注信息。 - 数据目录 - 选择目标数据目录。 - 冲突解决策略 - 更新旧的元数据(建议选择):旧数据不会被删除,在原有DLF元数据基础上更新元数据。 
- 重建元数据,即先删除旧的DLF元数据后再新建。 
 - 日志存放路径 - 所有迁移任务日志将被存储在指定的OSS位置。 - 同步对象 - 包括Database、Function、Table、Partition四种对象,一般为全选。 - Location替换 - 可选,适用于迁移过程中需要对table、database的location进行替换修改的情况。比如从传统HDFS架构迁移到OSS存算分离架构,则需要将 - hdfs://路径,替换为- oss://路径等情况。
- 确认任务配置信息无误,单击确定,创建任务完成。 
管理元数据迁移任务
- 单击迁移任务页签,在目标迁移任务操作列: - 单击运行:运行当前元数据迁移任务。 
- 单击运行记录:可查看任务运行的详情信息。 
- 单击编辑:可修改任务的源库配置和迁移任务配置。 
- 单击删除:可删除迁移任务。 
- 单击停止:可停止当前运行中的任务。 
 
- 单击执行历史页签,单击目标任务操作列的查看日志,可查看运行中的日志信息。 - 元数据迁移完成后,可以从日志中看到成功或失败的结果信息。 
验证元数据同步结果
- 在左侧菜单栏,单击。 
- 单击数据库页签,选择数据目录,输入同步的数据库名称,可以查询到相应的数据库信息。 
- 单击数据表页签,选择数据目录和库名,输入同步的表名,可以查询到相应的数据表信息。 
最佳实践
相关资料
DLF Region和弹性公网IP对照表
| Region | 弹性公网IP | 
| 杭州 | 121.41.166.235 | 
| 上海 | 47.103.63.0 | 
| 北京 | 47.94.234.203 | 
| 深圳 | 39.108.114.206 | 
| 新加坡 | 161.117.233.48 | 
| 法兰克福 | 8.211.38.47 | 
| 张家口 | 8.142.121.7 | 
| 中国香港 | 8.218.148.213 |