本文介绍如何配置独立的阿里云RDS,作为E-MapReduce(简称EMR)上Hadoop或EMR Studio集群的元数据。
前提条件
已购买RDS MySQL实例,详情请参见创建RDS MySQL实例。
说明 本文以MySQL 5.7版本为例介绍。
使用限制
EMR上创建的集群类型与MySQL关系如下:
- 如果创建的是Hadoop集群,则数据库类型选择MySQL,版本选择5.7;系列选择高可用版。
- 如果创建的是EMR Studio集群,则数据库类型选择MySQL,版本选择8.0。
操作流程
步骤一:元数据库准备
步骤二:创建集群
在创建集群的基础配置页面,配置以下参数,其他参数的配置请参见创建集群。
参数 | 描述 | |
---|---|---|
集群名称 | 集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、中划线(-)和下划线(_)。 | |
元数据选择 | 选择使用自建RDS。 | |
数据库链接 | 填写格式为jdbc:mysql://rm-xxxxxx.mysql.rds.aliyuncs.com/<数据库名称>?createDatabaseIfNotExist=true&characterEncoding=UTF-8。
说明
|
|
数据库用户名 | 填写步骤一:元数据库准备中账号的用户名。 | |
数据库密码 | 填写步骤一:元数据库准备中账号的密码。 | |
数据开发存储 | 设置Airflow的logs、dags以及Zeppelin的notebook在OSS上的存储位置。
说明 该参数仅在创建EMR Studio集群时可见。
|
步骤三:Metastore初始化
重要 如果您创建的是Hadoop集群,则需要按照以下步骤根据Hive版本初始化Metastore。