如果您的E-MapReduce(EMR)集群需要和集群之外的数据库同步数据,确保网络是联通的。本文以RDS、ECS自建和云下私有数据库三种情况为例,分别介绍如何配置网络。
云数据库RDS
Sqoop是用map任务同步数据,可以在任意节点上运行,而Sqoop任务需要配置连接RDS的内网地址来连接,所以,需要确保EMR集群的内网IP在RDS白名单里。
EMR集群和RDS需要在同一个VPC网络内,以便于可以直接访问RDS地址。如果在不同的VPC网络下,需要通过高速通道打通网络连接。
ECS自建数据库
访问VPC网络的自建数据库跟VPC网络的RDS类似,EMR集群需要使用VPC网络,并且数据库ECS实例和EMR集群实例需要在同一个安全组内。
云下私有数据库
有两种方式访问云下私有数据库,一种是绑定弹性IP(EIP)访问数据库的公网地址,一种是将云下数据库通过高速通道和VPC网络互联。