全部产品

作业管理

更新时间:2019-01-31 16:41:35

作业管理支持通过spark-submit脚本方式编写作业、提交集群运行、结果展示等功能。
入口:https://hbase.console.aliyun.com/hbase/cn-shanghai/workspace/job作业列表

创建作业

创建作业时,需要先选择一个可运行的集群。
创建作业

作业内容编写

SparkJob

spark作业内容就是spark-submit的命令行参数,由于平台和运行环境特性,spark作业支持的命令行参数是官方spark-submit的一个子集,不需要配置—master参数,具体格式和支持参数如下:

  • 格式
    1. [Options] <app jar | python file | R file> [app arguments]
  • 参数
Options (参数) 说明
—class CLASS_NAME Your application’s main class (for Java / Scala apps).
—jars JARS Comma-separated list of jars to include on the driver and executor classpaths.
—py-files PY_FILES Comma-separated list of .zip, .egg, or .py files to place on the PYTHONPATH for Python apps.
—files FILES Comma-separated list of files to be placed in the working directory of each executor. File paths of these files in executors can be accessed via SparkFiles.get(fileName).
—driver-memory MEM Memory for driver (e.g. 1000M, 2G) (Default: 1024M).
—driver-cores NUM Number of cores used by the driver, only in cluster mode (Default: 1).
—executor-cores NUM Number of cores per executor. (Default: 1).
—executor-memory MEM Memory per executor (e.g. 1000M, 2G) (Default: 1G).
—num-executors NUM Number of executors to launch (Default: 2).
—name NAME A name of your application.
—conf PROP=VALUE Arbitrary Spark configuration property.

例子:一个简单的java pi demo:

  1. --class org.apache.spark.examples.SparkPi
  2. --driver-memory 2G
  3. --driver-cores 1
  4. --executor-memory 2G
  5. --executor-cores 2
  6. --num-executors 1
  7. --name pi
  8. /examples_2.11-2.3.2.jar
  9. 10000

运行作业

点击运行时,如果当前region有多个集群,还可以再选择其它集群运行。
运行作业

运行状态查看

  • 可以点击刷新按钮,来实时刷新作业的运行结果列表。
  • 点击“日志”可以查看作业的运行信息,特别是当提交作业失败时,可以方便定位问题。
  • 当作业成功提交到后端开始运行后,也可以点击“Spark UI”进入Spark UI页面来查看作业运行详情。具体如何使用账号密码访问UI页面,可以查看通用的帮助文档:https://help.aliyun.com/document_detail/50510.html

作业实例列表

  • 点击“详情”,可以查看该作业提交时的命令行参数。

作业实例详情

  • 当任务在启动或运行过程中,可以点击“停止”来直接停止作业。

停止作业