Databricks如何访问外部数据源_Databricks 数据洞察（文档停止维护）(DDI)-阿里云帮助中心

本文介绍如何在Databricks数据洞察实现访问外部数据源的需求。

背景信息

Databricks数据洞察为了满足您在计算任务里访问您在阿里云上已有的数据，支持通过添加外部数据源的方式，打通集群到您自己VPC下的网络环境。

绑定数据源的本质是打通不同VPC之间的网络，即将数据源集群所在VPC与目标Databricks数据洞察集群所在VPC的网络打通。数据源绑定之后，您可以在Notebook或Spark作业里直接访问对应数据源的数据。

说明对于数据源绑定场景，如果多个数据源共用一个VPC下的交换机，打通其中一个数据源意味着相同交换机下的所有数据源一并打通。因此，只能打通同一Region下的数据源。

说明对于Aliyun EMR HDFS和Aliyun EMR Kafka类型数据源，目前支持各自添加一个集群。Aliyun ECS类型可以多选，如果是自建集群（如Kafka或HDFS)，只需要选择集群中的一个实例即可。

对于Aliyun EMR HDFS集群，数据源打通之后您可以通过以下方式访问集群数据。

对于HA集群，默认使用emr-cluster作为hostname。

sc.textFile("hdfs://emr-cluster/tmp/user0/airline_statistic_usa.csv").count()

对于非HA集群，请直接使用EMR HDFS集群namenode的IP访问。

sc.textFile("hdfs://192.168.xxx.xxx:9000/tmp/user0/airline_statistic_usa.csv").count()

说明对于Aliyun EMR Kafka集群，支持通过IP或者hostename访问。

解绑数据源本质是将数据源所在VPC与目标Databricks数据洞察集群VPC网络隔离。如果多个数据源共用一个交换机，解绑操作会使得当前Databricks数据洞察集群无法继续访问该交换机下所有数据源集群。