本文介绍如何在数据湖分析控制台,创建和执行Spark作业。

准备事项

  1. 您需要在提交作业之前首先创建虚拟集群,步骤可以参考:虚拟集群管理
    说明 创建虚拟集群时注意选择引擎类型为Spark。
  2. 如果您是子账号登陆,需要配置子账号提交作业的权限,具体可以参考文档:RAM子账号权限配置。由于SparkPi不需要访问外部数据源,您只需要配置文档中的前两个步骤:”DLA子账号关联RAM子账号“和”为子账号授予访问DLA的权限“。

操作步骤

  1. 登录Data Lake Analytics管理控制台
  2. 页面左上角,选择DLA所在地域。
  3. 单击左侧导航栏中的Serverless Spark -> 作业管理
  4. 作业编辑页面,单击创建作业
  5. 创建作业页面,按照页面提示进行参数配置。
    文件名称 设置文件夹或者文件的名字。
    文件类型 可以设置为文件或者文件夹。
    父级 设置文件或者文件夹的上层目录。
    • 作业列表相当于根目录,所有的作业都在作业列表下创建。
    • 您可以在作业列表下创建文件夹,然后在文件夹下创建作业;也可以直接在作业列表根目录下创建作业。
    spark_01
  6. 完成上述参数配置后,单击确定创建Spark作业。
  7. 创建Spark作业后,您可以根据作业配置指南编写Spark任务。
  8. Spark任务编写完成后,您可以进行以下操作:
    • 单击保存,保存Spark任务,便于后续复用任务。
    • 单击执行,执行Spark任务,状态栏中实时显示任务的执行状态。
      任务ID Spark任务ID,由系统生成。
      状态 Spark任务的运行状态。
      • STARTING:任务正在提交。
      • RUNNING:任务运行中。
      • SUCCESS:Spark作业执行成功。
      • DEAD:任务出错,可通过查看日志进行排错处理。
      • KILLED:任务被主动终止。
      任务名称 创建Spark任务时设置的任务名称,由name参数指定。
      提交时间 当前Spark任务的提交时间。
      启动时间 当前Spark任务的启动时间。
      更新时间 当前Spark任务状态发生变化时的更新时间。
      持续时间 运行当前Spark任务所花费的时间。
      操作 操作中有4个参数,分别为:
      • 日志,当前任务的日志,只获取最新的300行日志。
      • SparkUI,当前任务的Spark Job UI 地址,如果Token过期需要单击刷新获取最新的地址。
      • 详情,当前任务提交时填写的JSON脚本。
      • kill,终止当前的任务。

      DLA为您提供了一个名为SparkPi的示例任务,单击示例右侧作业编辑框显示SparkPi,单击执行执行SparkPi示例。

附录