全部产品
云市场

通过DLA控制台创建Spark任务

更新时间:2019-07-14 10:04:28

完成Spark作业创建后,您就可以在作业中编写和执行Spark任务。本文介绍如何通过DLA控制台创建Spark任务。

Spark任务格式

Spark任务内容通过编辑命令行参数方式进行编写。

参数说明
nameSpark任务名。
className入口类,例如org.apache.spark.example.SparkPi
fileSpark任务所依赖的所有jar包的存储位置,例如oss://xxx/spark-example_2.11-2.4.3.jar,jar包之间以逗号(,)分隔。

注意:Spark任务所依赖的所有jar包必须存储在OSS中。

confSpark中的conf项相同:
  • 参数格式为key: value形式,参数之间以逗号分隔。
  • 例如,conf: {"spark.driver.cu":1, "spark.executor.cu":1, "spark.executor.instances":1}

DLA中conf项的参数设置方式有以下两种:

  • "spark.driver.cu""spark.executor.cu",推荐使用该方式。
  • 使用原生Spark参数设置方式,"spark.executor.cores""spark.executor.memory"对应"spark.executor.cu""spark.driver.cores""spark.driver.memory"对应"spark.driver.cu"
args任务输入参数,例如["100", "output_table"]

格式示例

  1. {
  2. "key1": "value1",
  3. "key2": "value2",
  4. "key3": "value3",
  5. "conf": {
  6. "key4": value4,
  7. "key5": value5,
  8. "key6": value6
  9. },
  10. "args": [
  11. "value7"
  12. ]
  13. }

操作步骤

  1. 登录Data Lake Analytics管理控制台

  2. 在页面左上角,选择DLA所在地域。

  3. 在左侧导航栏单击Spark > 作业编辑

  4. 在作业列表中单击目标作业名,根据Spark任务格式编写Spark任务。

  5. Spark任务编写完毕,您可以进行以下操作。

    • 单击保存按钮,保存Spark任务,便于后续复用任务。

    • 单击运行按钮,执行Spark任务。

      运行任务

      参数说明
      任务IDSpark任务ID。
      状态Spark任务的运行状态。
      • starting:任务正在提交。
      • running:任务运行中。
      • dead:任务出错,可通过查看日志进行排错处理。
      任务名称创建Spark任务时设置的任务名称。
      提交时间当前Spark任务的提交时间。
      启动时间当前Spark任务的启动时间。
      更新时间当前Spark任务状态发生变化时的更新时间。
      持续时间运行当前Spark任务所花费的时间。
      资源使用运行当前Spark任务占用的CU数量。