如果您的E-MapReduce(EMR)集群需要和集群之外的数据库同步数据,确保网络是联通的。本文以RDS、ECS自建和云下私有数据库三种情况为例,分别介绍如何配置网络。

云数据库RDS

Sqoop是用map任务同步数据,可以在任意节点上运行,而Sqoop任务需要配置连接RDS的内网地址来连接,所以,需要确保EMR集群的内网IP在RDS白名单里。

EMR集群和RDS需要在同一个VPC网络内,以便于可以直接访问RDS地址。如果在不同的VPC网络下,需要通过高速通道打通网络连接。

ECS自建数据库

访问VPC网络的自建数据库跟VPC网络的RDS类似,EMR集群需要使用VPC网络,并且数据库ECS实例和EMR集群实例需要在同一个安全组内。

云下私有数据库

有两种方式访问云下私有数据库,一种是绑定弹性IP(EIP)访问数据库的公网地址,一种是将云下数据库通过高速通道和VPC网络互联。

  • 绑定EIP

    如果云下私有数据库可以通过公网访问,则创建一个VPC网络类型的EMR集群。创建后如果您需要使用公网IP地址访问,请在ECS上申请开通公网IP地址,详情请参见弹性公网IP

  • 高速通道

    如果私有数据库不能在公网暴露,可以创建一个VPC网络类型的 EMR 集群,通过高速通道连接私有 IDC 和阿里云上的 VPC 集群。

    高速通道详情请参见高速通道