本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。
前提条件
在Databricks数据洞察产品中创建一个集群,详情请参见创建集群
已使用OSS管理控制台创建非系统目录存储空间,详情请参见创建存储空间。
警告首次使用DDI产品创建的Bucket为系统目录Bucket,不建议存放数据,您需要再创建一个Bucket来读写数据。
说明DDI访问OSS路径结构:oss://BucketName/Object
BucketName为您的存储空间名称;
Object为上传到OSS上的文件的访问路径。
例:读取在存储空间名称为databricks-demo-hangzhou文件路径为demo/The_Sorrows_of_Young_Werther.txt的文件
// 从oss地址读取文本文档 val text = sc.textFile("oss://databricks-demo-hangzhou/demo/The_Sorrows_of_Young_Werther.txt")
步骤一 :上传示例到OSS
上传OSS目录:自定义OSS存储目录。
步骤二 :创建项目空间
在左侧导航栏中,选择项目空间,单击新建项目按钮,填写项目名称、项目描述,单击创建按钮。
二级菜单选择作业编辑,新建作业。
步骤三 :编写并提交作业
--class com.aliyun.emr.example.spark.SparkWordCount oss://databricks-demo/test-sparksubmit-word-count/spark-wordcount-examples-1.2.0.jar
oss://databricks-demo/test-sparksubmit-word-count/The_Sorrows_of_Young_Werther.txt
oss://databricks-demo/test-sparksubmit-word-count/output/temp/01 1
步骤四 :验证作业
作业执行完成后,查看作业运行记录。
作业执行成功后,可在OSS相应目录查看当前作业产出数据。
文档内容是否对您有帮助?