使用DataWorks的数据集成功能进行数据同步时,数据同步任务会运行占用一定的资源组,本文为您介绍资源组的基本概念和分类,以及连通性和性能问题,通过对比各类资源组,助力您根据自身需求选择更合适的资源组类型。

基本概念

资源组是指数据集成的批数据同步任务运行所在的计算资源。通常资源组以机器的形式展现,即CPU、内存和带宽的大小。

执行数据同步任务的流程为:先从数据来源所在的机器抽取数据至资源组所在的机器,再推送至目标数据源所在的机器。流程图

资源组分类

资源组大体可分为独享数据集成资源组、自定义数据集成资源组两类。
  • 独享数据集成资源组:

    购买后可独占使用的资源组。在任务高并发执行且无法错峰运行,需要独享的资源组来保障数据快速、稳定地传输时,您可以选择独享资源组。

    更多独享资源组的介绍可参见独享数据集成资源组,独享资源组的使用可参见新增和使用独享数据集成资源组
  • 自定义数据集成资源组:

    如果您有富余的服务器资源,也可将此部分资源作为DataWorks中任务运行的资源组使用,DataWorks支持自定义资源组。

    更多自定义资源组的介绍可参见自定义资源组,自定义资源组的使用可参见新增自定义数据集成资源组

资源规划关键:连通性和性能

您在使用资源组时,需要关注资源组的连通性和性能两方面:
  • 连通性

    由于执行数据同步任务流程的要求,需要保证资源组可以访问数据源(来源数据源和目标数据源)所在的网络,且不会因白名单限制等原因不能访问数据源。您需要在保证网络连通的前提下,再使用数据集成,如果网络不通,会导致数据同步任务无法执行。

    连通性问题是资源组最重要的问题,您在选用资源组时,需结合数据源网络环境和各资源组的网络连通解决方案,选择合适的资源组。各资源组支持的网络连通解决方案可参见选择网络连通方案

  • 性能

    执行同步任务时,会占用资源组所在机器的CPU、内存和网络等资源。如果资源不足,会导致任务无法启动、启动后长时间等待资源,或启动后传输速率较慢,不能及时产出结果等问题。

    您需要给予同步任务充足的资源,以保障任务的顺利运行。建议您使用独享资源组,将任务运行在独立的环境中,无需受到公共资源池的影响。独享资源组的性能指标可参见独享数据集成资源组的性能指标和计费标准

资源组对比与建议

三种类型的资源组适用于不同的场景,以下通过在资源组归属、网络连通、收费方式等维度为您对比展示各资源组的现状,您可以在执行任务时,根据自身需求选择合适的资源组。
类别 独享数据集成资源组 自定义数据集成资源组
机器资源归属 由DataWorks维护,是自己的租户独享使用的计算资源。 由您自己维护,是属于您的IDC机器。
网络 支持VPC、公网和任意网络下的阿里云产品。 支持VPC、公网和任意网络下的阿里云产品。
收费方式 根据机器的规格,包年包月计费。 DataWorks版本按月使用收费。
支持的数据源 全部数据源 全部数据源
安全性 根据您自身机器所处的环境决定
任务执行的效率

指任务是否能够分到足够的计算资源,能否以最高性能运行。

根据您自身机器所处的环境决定
可靠性

指任务是否能够按时启动。执行任务时,网络资源是否被其它租户占用,导致任务不能按时产出结果。

根据您自身机器所处的环境决定
适用场景 大量、重要的生产级别的任务。 使用自定义资源组的场景如下:
  • 如果您自身已有计算资源,可以对接阿里云重复使用,无需重新购买。
  • 需要同步的数据源全部在IDC内。
推荐指数 ★★★★★

根据上表两种类型的对比,推荐您使用独享数据集成资源组来执行同步任务。