本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。
本文介绍如何使用Databricks 读写EMR HDFS文件系统数据。
前提条件
通过主账号登录阿里云 Databricks控制台。
已创建EMR集群,具体参见EMR集群创建
已创建DDI集群,具体请参见DDI集群创建。
创建集群并通过knox账号访问Notebook。
接入EMR HDFS数据源
1.查看EMR创建集群信息
2.进入DDI集群选择数据源,选择添加数据源
3.查看是否添加成功
4.非HA集群查看HDFS的路径
警告
此为HDFS的访问路径
可通过登录master节点命令hdfs dfs -ls /
访问HDFS目录
5.访问EMR HDFS 数据源代码实现
%spark
val path="hdfs://emr-header-1.cluster-202360:9000/user/test/export.csv"
val data = spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv(path)
data.show(5)
6.HA 集群访问HDSF
警告
DDI打通多个EMR HA集群会有名称冲突
%spark
val path="hdfs://emr-cluster/user/test"
val data = spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv(path)
data.show(5)
文档内容是否对您有帮助?