EMR HDFS

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

本文介绍如何使用Databricks 读写EMR HDFS文件系统数据。

前提条件

接入EMR HDFS数据源

1.查看EMR创建集群信息

data

2.进入DDI集群选择数据源,选择添加数据源

data

3.查看是否添加成功

成功

4.非HA集群查看HDFS的路径

打他
警告

此为HDFS的访问路径

可通过登录master节点命令hdfs dfs -ls / 访问HDFS目录

5.访问EMR HDFS 数据源代码实现

%spark
val path="hdfs://emr-header-1.cluster-202360:9000/user/test/export.csv"
val data = spark.read 
  .option("header", "true") 
  .option("inferSchema", "true") 
  .csv(path)
data.show(5)
data

6.HA 集群访问HDSF

HA
警告

DDI打通多个EMR HA集群会有名称冲突

%spark
val path="hdfs://emr-cluster/user/test"
val data = spark.read 
  .option("header", "true") 
  .option("inferSchema", "true") 
  .csv(path)
data.show(5)
HAData