文本文件
读取纯文本文件,文件中的每一行将被解析为DataFrame中的一条记录,然后根据要求进行转换,由于文本文件能够充分利用原生类型(native type)的灵活性,因此很适合作为DataSetAPI的输入。
前提条件
通过主账号登录阿里云 Databricks控制台。
已创建集群,具体请参见创建集群。
已使用OSS管理控制台创建非系统目录存储空间,详情请参见创建存储空间。
创建集群并通过knox账号访问Notebook。
警告
首次使用DDI产品创建的Bucket为系统目录Bucket,不建议存放数据,您需要再创建一个Bucket来读写数据。
说明
DDI访问OSS路径结构:oss://BucketName/Object
BucketName为您的存储空间名称。
Object为上传到OSS上的文件的访问路径。
例:读取在存储空间名称为databricks-demo-hangzhou文件路径为demo/The_Sorrows_of_Young_Werther.txt的文件
// 从oss地址读取文本文档
val dataRDD = sc.textFile("oss://databricks-demo-hangzhou/demo/The_Sorrows_of_Young_Werther.txt"
实例
case1: 使用文本的方式读取数据
1,a,10000,11-03-2019,pune
2,b,10020,14-03-2019,pune
3,a,34567,15-03-2019,pune
tyui,a,fgh-03-2019,pune
4,b,10020,14-03-2019,pune
%spark
val path="oss://databricks-data-source/datas/dataTest.csv"
val dtDF = spark.read.textFile(path)
dtDF.show()