E-MapReduce 工作流支持通过 DAG 的方式并行执行大数据作业,用户可以暂停、停止、重新运行工作流,还可以在 Web UI 查看工作流的执行状态。

新建工作流

  1. 通过主账号登录阿里云 E-MapReduce 控制台
  2. 单击上方的数据开发页签,进入项目列表页面。
  3. 单击对应项目右侧的工作流设计,然后单击左侧的工作流设计页签,进入工作流设计页面。
  4. 在页面左侧,在需要操作的文件夹上单击右键,选择新建工作流
  5. 新建工作流对话框中,输入工作流名称、工作流描述,选择执行集群。

    用户可以选择已经创建的且被关联到该项目的预付费和后付费EMR集群用于执行工作流,也可以通过集群模板的方式新建一个临时集群用于执行该工作流。

  6. 单击确定

编辑工作流

用户可以通过拖拽方式将不同类型的作业拉到工作流编辑画布,将不同作业节点通过连线的方式指定工作流的流转。作业拖拽完成后,从控制节点处拖拽 END组件到画布中,表示整个工作流设计完成。

配置工作流

工作流设计页面的右侧,单击配置按钮,可以进行工作流调度配置。

  • 执行集群
    选择当前工作流中各个节点默认的执行集群,有以下两种模式:
    • 常驻集群: 选择当前已存在的集群,工作流执行时,相关任务会下发到该集群中。
    • 按需集群: 选择集群模板,调度系统在工作流启动时先按模版创建一个集群,然后将作业下发到该集群上执行。在工作流结束后,调度系统会自动释放该集群。
  • 调度策略:在开启工作流调度后,时间依赖是默认必须使用的,同时您可以添加工作流依赖调度。
    • 时间调度:设置工作流调度的开始时间和结束时间,在此时间范围内,系统会根据您设置的周期执行工作流。
    • 依赖调度:从所选项目中,选择当前工作流的前续工作流。当前续工作流执行完成后,当前工作流才会被调度执行。目前依赖调度只能选择一个工作流。
  • 告警配置
    目前支持通过短信、邮件和钉钉群的方式发送告警,相关告警事件包括:
    • 执行失败: 工作流执行失败时告警
    • 节点失败: 工作流中有节点执行失败时告警
    • 执行成功:工作流执行成功时发送通知
    • 启动超时:如果工作流中有节点在下发到集群后 30 分钟内还没有启动,将发送告警信息并取消该节点任务

执行工作流

工作流设计和配置完成后,您可以单击右上角的运行按钮执行工作流。

查看并操作工作流实例

工作流运行后,单击左侧的 运行记录页签,可以查看工作流实例的运行状态。单击工作流实例对应的 详情,可以查看作业实例的运行情况,也可以暂停、恢复、停止和重跑工作流实例。

  • 暂停工作流后:正在运行的作业节点会继续执行,但后续的作业节点不再执行,可以单击恢复工作流,系统将继续执行暂停作业节点之后的作业。
  • 取消工作流:所有正在运行的作业节点立即停止。
  • 重跑工作流实例:系统将从工作流的start节点从头开始执行工作流。