本文介绍如何在数据湖分析控制台创建和执行Spark作业。

准备事项

  • 您需要在提交作业之前先创建虚拟集群,具体请参考创建虚拟集群
    说明 创建虚拟集群时注意选择引擎类型为Spark
  • 如果您是子账号登录,需要配置子账号提交作业的权限,具体请参考细粒度配置RAM子账号权限。由于SparkPi不需要访问外部数据源,您只需要配置文档中的前两个步骤:”DLA子账号关联RAM子账号“和”为子账号授予访问DLA的权限“。

操作步骤

  1. 登录Data Lake Analytics管理控制台
  2. 页面左上角,选择DLA所在地域。
  3. 单击左侧导航栏中的Serverless Spark -> 作业管理
  4. 作业编辑页面,单击创建作业模板
  5. 创建作业模板页面,按照页面提示进行参数配置。
    参数名称 参数说明
    文件名称 设置文件或者文件夹的名字。文件名称不区分大小写。
    文件类型 可以设置为文件或者文件夹。
    父级 设置文件或者文件夹的上层目录。
    • 作业列表相当于根目录,所有的作业都在作业列表下创建。
    • 您可以在作业列表下创建文件夹,然后在文件夹下创建作业;也可以直接在作业列表根目录下创建作业。
    作业类型 您可以选择为SparkJob或SparkSQL。
    • SparkJob:Python/Java/Scala类型的Spark作业,需要填写Json配置作业。
    • SparkSQL:SQL类型的Spark配置, 通过set命令配置作业,详情请就参见Spark SQL
    spark_01
  6. 完成上述参数配置后,单击确定创建Spark作业。
  7. 创建Spark作业后,您可以根据作业配置指南编写Spark作业。
  8. Spark作业编写完成后,您可以进行以下操作:
    • 单击保存,保存Spark作业,便于后续复用作业。
    • 单击执行,执行Spark作业,作业列表实时显示作业的执行状态。
    • 单击示例,右侧作业编辑框显示DLA为您提供的SparkPi示例作业,单击执行,执行SparkPi示例。Spark作业
  9. (可选)在作业列表中,查看作业状态或对作业执行操作。作业列表
    配置 说明
    作业ID Spark任务ID,由系统生成。
    状态 Spark任务的运行状态。
    • STARTING:任务正在提交。
    • RUNNING:任务运行中。
    • SUCCESS:Spark作业执行成功。
    • DEAD:任务出错,可通过查看日志进行排错处理。
    • KILLED:任务被主动终止。
    作业名称 创建Spark作业时设置的作业名称,由name参数指定。
    提交时间 当前Spark作业的提交时间。
    启动时间 当前Spark作业的启动时间。
    更新时间 当前Spark作业状态发生变化时的更新时间。
    持续时间 运行当前Spark作业所花费的时间。
    操作 操作中有5个参数,分别为:
    • 日志,当前作业的日志,只获取最新的300行日志。
    • SparkUI,当前作业的Spark Job UI 地址,如果Token过期需要单击刷新获取最新的地址。
    • 详情,当前作业提交时填写的JSON脚本。
    • kill,终止当前的作业。
    • 历史,查看当前作业的作业尝试列表。
    • 监控,查看当前作业的监控数据。
  10. (可选)单击作业尝试列表,查看所有作业的作业尝试。
    说明
    • 默认情况下,一个作业只会进行一次作业尝试。如需进行多次作业尝试,请配置作业重置参数。更多信息,请参见作业配置指南
    • 作业尝试列表中,选中单个作业,单击操作 > 历史,可以查看该作业的尝试列表。
    作业尝试列表

附录