阿里云首页 Databricks数据洞察

工作流调度Zeppelin Notebook

在Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的Zeppelin作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行大数据作业

前提条件

  1. 通过主账号登录阿里云 Databricks控制台

  2. 已创建集群,具体请参见创建集群

  3. 已创建好需要使用的Notebook,具体请参见使用Notebook

新建项目空间

通过以下步骤,可以新建项目空间。

  1. 在Databricks控制台页面,单击左侧导航栏的项目空间

  2. 单击新建项目

  3. 填写项目名称、项目描述、单击确定

创建zeppelin作业

  1. 进入项目在二级菜单中新建作业

  2. 填写作业名称、作业描述,作业类型选择zeppline、单击确定

  3. 编辑调度Notebook、单击保存

    使用作业调度Notebook有2种方式

    方式一:使用OSS路径调度Notebook

    oss://ddi-cn-hangzhou-123456789/DDI_C-464E4772BC68CBB/jfs_root/zeppelin/notebooks/case_2FS1V4ZZB.zpln
    说明

    您创建并编辑的Notebook存储在对应集群所在的OSS文件中,您可以在作业中编写Notebook所在的OSS路径来调度作业

    调度notebook

    方式二:使用Notebook ID调度Notebook

    调度方式二您可以在作业编辑区填写Notebook ID来调度Notebook。

    说明

    您可以在Zeppelin里Notebook URL链接尾部中找到NotebooK ID。如下图所示

    UrL Notebook ID
    警告

    使用Notebook ID调度Notebook只能使用当前Notebook所在集群运行作业,否则会无法成功运行。工作流调度作业时,请注意并设置好运行集群。

  4. 设置作业参数(Knox)

    作业调度Notebook,需要配置执行集群knox账号相关的参数来连接作业Notebook,具体操作步骤如下:

    1. 单击作业设置

    2. 左侧抽屉中单击高级设置

    3. Notebook连接中添加用户名、密码

    data

使用工作流调度作业

  1. 二级菜单新建工作流。

  2. 填写工作流名称工作流描述执行集群

  3. 单击确定

    新建工作流
  4. 编辑工作流

    1. 在工作流画布上,拖拽不同类型的作业节点到画布上,并进行节点编辑,选择相关zeppelin作业。

    2. 根据依赖关系,从节点底部中心可连接到另一节点上部中心。

    3. 完成依赖关系后,再添建END组件。

    4. 单击画布上方保存

    工作流编辑
  5. 单击运行,可以调度Zeppelin作业

    说明

    你可以设置工作流配置,配置调度属性。详情请参考工作流使用案例

首页 Databricks数据洞察 项目空间 工作流调度Zeppelin Notebook