本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。
在Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的Zeppelin作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行大数据作业。
前提条件
通过主账号登录阿里云 Databricks控制台。
已创建集群,具体请参见创建集群。
已创建好需要使用的Notebook,具体请参见使用Notebook。
新建项目空间
通过以下步骤,可以新建项目空间。
在Databricks控制台页面,单击左侧导航栏的项目空间。
单击新建项目。
填写项目名称、项目描述、单击确定。
创建zeppelin作业
进入项目在二级菜单中新建作业。
填写作业名称、作业描述,作业类型选择zeppline、单击确定
编辑调度Notebook、单击保存
使用作业调度Notebook有2种方式
方式一:使用OSS路径调度Notebook
oss://ddi-cn-hangzhou-123456789/DDI_C-464E4772BC68CBB/jfs_root/zeppelin/notebooks/case_2FS1V4ZZB.zpln
说明您创建并编辑的Notebook存储在对应集群所在的OSS文件中,您可以在作业中编写Notebook所在的OSS路径来调度作业
方式二:使用Notebook ID调度Notebook
您可以在作业编辑区填写Notebook ID来调度Notebook。
说明您可以在Zeppelin里Notebook URL链接尾部中找到NotebooK ID。如下图所示
警告使用Notebook ID调度Notebook只能使用当前Notebook所在集群运行作业,否则会无法成功运行。工作流调度作业时,请注意并设置好运行集群。
设置作业参数(Knox)
作业调度Notebook,需要配置执行集群knox账号相关的参数来连接作业和Notebook,具体操作步骤如下:
单击作业设置
左侧抽屉中单击高级设置
在Notebook连接中添加用户名、密码
使用工作流调度作业
二级菜单新建工作流。
填写工作流名称、工作流描述、执行集群。
单击确定
编辑工作流
在工作流画布上,拖拽不同类型的作业节点到画布上,并进行节点编辑,选择相关zeppelin作业。
根据依赖关系,从节点底部中心可连接到另一节点上部中心。
完成依赖关系后,再添建END组件。
单击画布上方保存。
单击运行,可以调度Zeppelin作业
说明你可以设置工作流配置,配置调度属性。详情请参考工作流使用案例