Pipeline(数据管道)

更新时间:2017-06-07 13:26:11

Pipeline是CDP权限管理、资源隔离的基本单元,为权限管理、安全控制提供管理和控制,同时也是数据同步Job运行的容器,为Job提供资源管控、运行调度等服务化功能。Pipeline分为普通Pipeline和ECS Pipeline。其中:

  • 普通Pipeline是在阿里云提供的服务器上创建,所有的同步作业也是运行在阿里云提供的服务器上,Pipeline数量、带宽是有限的,目前每个云账户申请并开通CDP服务后,暂定只允许开通1个Pipeline;
  • ECS Pipeline上的同步作业是运行在用户自己的ECS机器上,数据集成平台对ECS Pipeline数量、带宽不作限制。

二、作用

  • 同步运行的容器

    Pipeline是CDP进行数据同步的运行容器,为Job提供资源管控、运行调度的集群化、服务化功能。每个Job在启动提交时必须指定具体的Pipeline运行。Pipeline为该Job进行调度管控,保证Job能够遵守FIFO的调度规则,并阻止Job最大运行带宽超出Pipeline的额定带宽,避免对其他用户造成影响。同时,Pipeline在启动Job后实时追踪该Job运行状态,并提供流控、实时汇报等机制保证Job正常运行。

  • 权限管理的空间

Pipeline是CDP进行权限管理的基本单位,每个Pipeline都有自己单独的权限管理域。不同用户Pipeline之间的互相不会受到干扰。

每个CDP用户允许且仅运行创建一个CDP Pipeline,该用户称之为Pipeline Owner(简称Owner,下同)。Owner对持有的Pipeline及下属的作业享有全部控制权限,包括Job 各类CRUD操作。CDP目前没有处理Pipeline多用户权限模型。如果需要复杂的Pipeline内部授权,CDP将交给上层应用类似于彩云间之类的面向领域解决方案的服务去解决。

  • 资源隔离的空间

Pipeline是资源隔离的单元,Pipeline之间的管道资源以及底层的引擎等资源都是相互隔离的,一个Project的运行任务不会影响其他的Pipeline任务运行。这样可保证Pipeline不会受到其他因素的干扰,从而保证了CDP产品的健壮性。