作业提交示例

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

前提条件

  • 在Databricks数据洞察产品中创建一个集群,详情请参见创建集群

  • 已使用OSS管理控制台创建非系统目录存储空间,详情请参见创建存储空间

    警告

    首次使用DDI产品创建的Bucket为系统目录Bucket,不建议存放数据,您需要再创建一个Bucket来读写数据。

    说明

    DDI访问OSS路径结构:oss://BucketName/Object

    • BucketName为您的存储空间名称;

    • Object为上传到OSS上的文件的访问路径。

    例:读取在存储空间名称为databricks-demo-hangzhou文件路径为demo/The_Sorrows_of_Young_Werther.txt的文件

    // 从oss地址读取文本文档
    val text = sc.textFile("oss://databricks-demo-hangzhou/demo/The_Sorrows_of_Young_Werther.txt")

步骤一 :上传示例到OSS

  • 上传OSS目录:自定义OSS存储目录。

步骤二 :创建项目空间

在左侧导航栏中,选择项目空间,单击新建项目按钮,填写项目名称、项目描述,单击创建按钮。

项目空间

二级菜单选择作业编辑,新建作业。

新建作业

步骤三 :编写并提交作业

--class com.aliyun.emr.example.spark.SparkWordCount oss://databricks-demo/test-sparksubmit-word-count/spark-wordcount-examples-1.2.0.jar 
oss://databricks-demo/test-sparksubmit-word-count/The_Sorrows_of_Young_Werther.txt 
oss://databricks-demo/test-sparksubmit-word-count/output/temp/01 1
作业示例

步骤四 :验证作业

作业执行完成后,查看作业运行记录。

查看状态

作业执行成功后,可在OSS相应目录查看当前作业产出数据。

OSS数据目录