工作流调度Zeppelin Notebook

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

在Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的Zeppelin作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行大数据作业。

前提条件

  1. 通过主账号登录阿里云 Databricks控制台

  2. 已创建集群,具体请参见创建集群

  3. 已创建好需要使用的Notebook,具体请参见使用Notebook

新建项目空间

通过以下步骤,可以新建项目空间。

  1. 在Databricks控制台页面,单击左侧导航栏的项目空间

  2. 单击新建项目

  3. 填写项目名称、项目描述、单击确定

创建zeppelin作业

  1. 进入项目在二级菜单中新建作业

  2. 填写作业名称、作业描述,作业类型选择zeppline、单击确定

  3. 编辑调度Notebook、单击保存

    使用作业调度Notebook有2种方式

    方式一:使用OSS路径调度Notebook

    oss://ddi-cn-hangzhou-123456789/DDI_C-464E4772BC68CBB/jfs_root/zeppelin/notebooks/case_2FS1V4ZZB.zpln
    说明

    您创建并编辑的Notebook存储在对应集群所在的OSS文件中,您可以在作业中编写Notebook所在的OSS路径来调度作业

    调度notebook

    方式二:使用Notebook ID调度Notebook

    调度方式二您可以在作业编辑区填写Notebook ID来调度Notebook。

    说明

    您可以在Zeppelin里Notebook URL链接尾部中找到NotebooK ID。如下图所示

    UrL Notebook ID
    警告

    使用Notebook ID调度Notebook只能使用当前Notebook所在集群运行作业,否则会无法成功运行。工作流调度作业时,请注意并设置好运行集群。

  4. 设置作业参数(Knox)

    作业调度Notebook,需要配置执行集群knox账号相关的参数来连接作业Notebook,具体操作步骤如下:

    1. 单击作业设置

    2. 左侧抽屉中单击高级设置

    3. Notebook连接中添加用户名、密码

    data

使用工作流调度作业

  1. 二级菜单新建工作流。

  2. 填写工作流名称工作流描述执行集群

  3. 单击确定

    新建工作流
  4. 编辑工作流

    1. 在工作流画布上,拖拽不同类型的作业节点到画布上,并进行节点编辑,选择相关zeppelin作业。

    2. 根据依赖关系,从节点底部中心可连接到另一节点上部中心。

    3. 完成依赖关系后,再添建END组件。

    4. 单击画布上方保存

    工作流编辑
  5. 单击运行,可以调度Zeppelin作业

    说明

    你可以设置工作流配置,配置调度属性。详情请参考工作流使用案例