DolphinScheduler调度Spark

DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统,能高效地执行和管理大数据流程。您可以借助Spark-Submit命令行工具,在DolphinScheduler Web界面轻松创建、编辑、调度云原生数据仓库 AnalyticDB MySQL 版的Spark作业。

前提条件

  • AnalyticDB for MySQL集群的产品系列为企业版、基础版或湖仓版

  • 已在AnalyticDB for MySQL集群中创建Job型资源组。具体操作,请参见新建资源组

  • 已安装JDK,且JDK的版本为1.8及以上版本。

  • 已安装DolphinScheduler。具体操作,请参见DolphinScheduler官方文档

  • 已将运行DolphinScheduler的服务器IP地址添加至AnalyticDB for MySQL集群的白名单中。具体操作,请参见设置白名单

操作步骤

  1. 安装Spark-Submit命令行工具并配置相关参数。安装操作与参数说明,请参见安装Spark-Submit参数配置

    说明

    您只需要配置keyIdsecretIdregionIdclusterIdrgName这些必填参数。如果您的Spark JAR包在本地,还需要配置ossUploadPath等OSS相关参数。

  2. 创建项目。

    1. 访问DolphinScheduler Web界面,在顶部导航栏单击项目管理

    2. 单击创建项目

    3. 在弹出的创建项目对话框中配置项目名称所属用户等参数。详情请参见创建项目

  3. 创建工作流。

    1. 单击已创建的项目名称,进入工作流定义页面。

    2. 单击创建工作流进入工作流DAG编辑页面

    3. 在页面左侧选择SHELL,并将其拖拽到右侧空白画布中。

    4. 在弹出的当前节点设置对话框中配置如下参数:

      参数

      说明

      节点名称

      工作流节点的名称。

      脚本

      Spark-Submit命令行工具的安装地址及Spark作业的业务代码。例如:

      /root/adb-spark-toolkit-submit/bin/spark-submit --class org.apache.spark.examples.SparkPi --name SparkPi --conf spark.driver.resourceSpec=medium --conf spark.executor.instances=2 --conf spark.executor.resourceSpec=medium local:///tmp/spark-examples.jar 1000

      重要

      调度Spark作业时,必须要在脚本中指定Spark-Submit命令行工具的地址,否则调度任务可能会找不到Spark-Submit命令。

      说明

      其他参数说明请参见DolphinScheduler任务参数

    5. 单击确认

    6. 单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定

  4. 运行工作流。

    1. 单击工作流操作列的image按钮,上线工作流。

    2. 单击工作流操作列的image按钮。

    3. 在弹出的启动前请先设置参数对话框中,配置对应参数。

    4. 单击确定,运行工作流。

  5. 查看工作流详细信息。

    1. 在左侧导航栏单击任务实例

    2. 操作列,单击image按钮,查看工作流执行结果和日志信息