全部产品

EMR HDFS

更新时间:2021-01-27 20:02

本文介绍如何使用Databricks 读写EMR HDFS文件系统数据

前提条件

接入EMR HDFS数据源

1.查看EMR创建集群信息

data

2.进入DDI集群选择数据源,选择添加数据源

data

3.查看是否添加成功

成功

4.非HA集群查看HDFS的路径

打他
警告

此为HDFS的访问路径

可通过登陆meter节点命令hdfs dfs -ls / 访问HDFS目录

5.访问EMR HDFS 数据源代码

%spark
val path="hdfs://emr-header-1.cluster-202360:9000/user/test/export.csv"
val data = spark.read 
  .option("header", "true") 
  .option("inferSchema", "true") 
  .csv(path)
data.show(5)
data

6.HA 集群路径

HA
警告

DDI打通多个EMR HA集群会有名称冲突

%spark
val input="hdfs://emr-cluster/user/test"
val data = spark.read 
  .option("header", "true") 
  .option("inferSchema", "true") 
  .csv(path)
data.show(5)
HAData