DataWorks一个工作空间支持多类计算引擎,一类计算引擎可以绑定多个该类计算引擎实例。

DataWorks支持在同一个业务流程下实现多引擎多实例计算运行,完成数据清洗,同时支持跨地区依赖上游节点任务,保障业务数据顺利产出。

例如华东2节点(demo_hangzhou_odpssql)跨地域依赖华北2节点(bj_odps_001和demo_beijing_odpssql),下游用华北2的EMR引擎(demo_eemr_hivesql)清洗上游数据,并通过离线同步任务将数据回流。跨地域

创建多引擎多实例

  1. 登录DataWorks控制台,单击相应工作空间后的工作空间配置
  2. 单击工作空间配置对话框中的更多设置,即可进入工作空间配置页面。更多设置
    您也可以进入数据开发页面,单击右上角的工作空间管理,进入工作空间配置页面。工作空间配置
  3. 进入计算引擎信息模块为当前工作空间绑定多个计算引擎实例。
    目前DataWorks支持MaxCompute、E-MapReduc、Blink和交互式分析(Hologress)等计算引擎绑定多个实例。增加实例的详情请参见工作空间配置绑定多引擎
    说明 :如果需要添加多引擎实例,请先开通相应的计算引擎服务,详情请参见创建工作空间
    此处以添加两个MaxCompute引擎实例、两个EMR引擎实例为例:
    • DataWorks工作空间所在区域:华东2。
    • MaxCompute引擎实例:xstudio_demo_001(华东2)和xstudio_demo_001_2(华北2)。
    • EMR引擎实例:emr_beijing_002(华北2)。

跨区域依赖

以华东2工作空间下的节点(demo_hangzhou_odpssql)跨区域依赖华北2工作空间下的节点(xstudio_beijing_demo.bj_odps_001)为例,操作如下:

  1. 在MaxCompute引擎实例(华东2xstudio_demo_001)下新建节点(demo_hangzhou_odpssql)。新建节点
  2. 打开需要跨区域依赖的节点(demo_hangzhou_odpssql),单击右侧的调度配置
  3. 进入调度依赖模块,单击高级配置高级配置
  4. 跨地域节点依赖对话框中,选择地域为华北2(北京)、依赖的上游节点为xstudio_beijing_demo.bj_odps001节点。跨地域节点
  5. 单击添加依赖,即可在业务流程中查看,当前华东2节点(demo_hangzhou_odpssql)跨区域依赖华北2工作空间下的节点(xstudio_beijing_demo.bj_odps_001)。添加依赖

多实例依赖

以MaxCompute引擎实例(华东2xstudio_demo_001)下的节点(demo_hangzhou_odpssql)依赖MaxCompute引擎实例(华北2xstudio_demo_001)下的节点(demo_beijing_odpssql)为例,操作如下:

  1. 在业务流程看板中拖动华北2MaxCompute引擎实例下新建的节点(demo_beijing_odpssql)。新建节点
  2. 通过节点间的连线,构建节点依赖关系。依赖关系

    此时华东2节点(demo_hangzhou_odpssql)跨区域依赖华北2节点(xstudio_beijing_demo.bj_odps_001)节点及跨引擎实例MaxCompute引擎实例(华北2xstudio_demo_001)下的节点(demo_beijing_odpssql)。

多引擎依赖

  1. 在EMR引擎实例(emr_beijing_002)下新建EMR HIVE节点(demo_emr_hivesql),详情请参见EMR HIVE多引擎
  2. 通过节点间的连线,构建节点依赖关系。依赖关系
  3. 此时EMR计算引擎对数据进行最后的清洗,业务流程末端用离线同步节点将数据回流。数据回流