DLA Serverless Spark目前支持DataWorks和DMS编排调度任务,同时也提供自定义SDK和Spark-Submit工具包供用户自定义编排调度。本文将介绍如何使用DMS来编排调度Spark任务。

前提条件

说明 如果您想用RAM子账号提交Spark作业,且之前未使用过子账号在DLA控制台提交作业,您可以参见RAM子账号权限配置进行子账号提交作业配置。

操作步骤

任务调度中一个重要的功能是任务之间的依赖,为演示这个功能,本文会在DMS中创建三个DLA Spark任务,任务之间的依赖关系如下图所示,任务test_2和 test_3 依赖上游任务test_1完成之后,才能执行。1
  1. 登录DMS控制台
  2. 在顶部菜单栏中,单击数据工厂 > 任务编排
  3. 任务编排页面的自由编排任务区域,单击新建任务流2
  4. 新建任务流对话框,将任务流名称设置为spark_demo,将描述设置为spark demo,完成后单击确认3
  5. 任务编排页面,从左侧任务类型中拖拽三个DLA Serverless Spark,分别命名为test_1、test_2、test_3,并按照下图中的依赖关系进行连线。4
  6. 依次单击3个节点(test_1、test_2、test_3),在每个节点的右侧面板中选中内容设置页签,并配置以下信息:
    • 地域列表中,选择目标Spark集群所在的地域。
    • Spark 集群列表中,选择目标Spark集群。
    • 作业配置文本框中已有运行内置Sparkpi的配置参数,如果您需要运行自定义作业,可根据您的需求进行修改。
  7. 完成以上配置后,单击保存按钮,然后单击页面左上方的试运行按钮进行任务运行。5
  8. 您可以在运维中心查看任务运行结果。222

自定义任务编排调度

DLA Serverless Spark除了上述调度集成之外,还提供了SDK以及Spark-Submit工具用于提交Spark作业、查询作业状态、获取作业日志等功能,详情请参见:

您可以利用上述工具,使用第三方任务编排调度系统(如Apache Airflow)来打造自己的工作流。