DataWorks使用集成资源组(同步插件)来进行数据,数据同步前,您需要保障数据集成资源组(同步插件)与数据库的网络连通性,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中时,可选用的网络连通方案。

数据同步如上图所示,进行数据同步前,需通过合适的网络连通方案将数据库和数据集成资源组间的网络打通。DataWorks当前支持使用独享数据集成资源组或自定义数据集成资源组,不同资源组的属性与适用场景不同。
资源组 属性 使用场景
独享数据集成资源组 为DataWorks平台托管型资源,购买独享数据集成资源组后,您可独占使用这些资源,详情请参见新增和使用独享数据集成资源组
  • 当您需要通过内网访问其他网络环境,需要与其他网络环境下的数据库进行网络连通,您可以选择独享数据集成资源组。
  • 在数据集成任务高并发执行且无法错峰运行的情况下,企业需要独享的计算资源组来保障数据快速、稳定地传输。
自定义数据集成资源组 用户富余的服务器资源作为数据同步时的数据集成资源组,详情请参见新增自定义数据集成资源组 如果您有富余的服务器资源,也可将此部分资源作为DataWorks中任务运行的资源组使用,DataWorks支持自定义资源组,但您需要自己保障自定义资源组与数据库的网络连通问题。
当数据库与资源组使用的网络类型不同时,合适的网络连通方案也不一样,下文的网络连通解决方案概览为您概览介绍了不同场景适用的网络连通方案。

网络连通解决方案概览

网络连通解决方案由上图可见:

使用独享数据集成资源组

独享资源部署在DataWorks托管的专有网络(VPC)中,与其他网络环境不连通。使用独享资源时,您需进行网络配置,为独享资源绑定一个可与数据源连通的VPC,通过此VPC实现与数据源网络连通。

说明
  • 通过公网访问数据库
    表 1. 表1 通过公网同步数据库数据
    网络连通方案 网络连通配置操作指导
    直接连接。独享 以使用阿里云RDS数据库为例,网络连通配置如下。公网其中,独享数据集成资源组的详情请参见新增和使用独享数据集成资源组
    注意 请注意公网的收费限制,详情请参见数据集成公网流量计费
  • 通过VPC(内网)访问数据库
    表 2. 表2.1 通过VPC(内网)同步数据库数据,且数据库与DataWorks工作空间同阿里云主账号、同地域
    网络连通方案 网络连通配置操作指导
    网络连通方案:VPC网络连通方案架构图:同账号同地域-ECS自建 独享数据集成资源组可绑定数据源所在VPC。
    说明
    • 绑定VPC后,系统自动为您添加一条路由至整个VPC的路由,您绑定VPC的任意一个交换机,资源组与数据源的网络都可连通。
    • 如果您是在数据源配置界面进行的网络绑定,独享数据集成资源组只能访问数据库所在VPC和交换机,无法与整个VPC实现连通,此时您需手动添加路由,详情可参见添加路由
    以阿里云RDS数据库为例,配置操作如下所示。同账号同地域-RDS
    表 3. 表2.2 通过VPC(内网)同步数据库数据,且数据库与DataWorks工作空间同阿里云主账号、不同的地域
    网络连通方案 网络连通配置操作指导
    网络连通方案概览:VPC跨地域网络连通方案架构图:同账号不同地域-ECS
    1. 为独享数据集成资源组绑定一个VPC。
      1. 在DataWorks所在地域新建一个VPC。
      2. 为独享数据集成资源组绑定上述创建的VPC。
    2. 配置数据源和资源组的网络连通。
      1. 使用高速通道或VPN连通两个VPC。
      2. 在控制台添加路由,连接至目标VPC,详情可参见添加路由
    以阿里云RDS数据库为例,配置操作如下所示。同账号不同地域-RDS
    表 4. 表2.3 通过VPC(内网)同步数据库数据,且数据库与DataWorks工作空间使用不同阿里云主账号
    网络连通方案 网络连通配置操作指导
    网络连通方案概览:VPC跨地域网络连通方案架构图:不同账号-ECS
    1. 为独享数据集成资源组绑定一个VPC。
      1. 在DataWorks所在地域新建一个VPC。
      2. 为独享数据集成资源组绑定上述创建的VPC。
    2. 配置数据源和资源组的网络连通。
      1. 使用高速通道或VPN连通两个VPC。
      2. 在控制台添加路由,连接至目标VPC,详情可参见添加路由
    以阿里云RDS数据库为例,配置操作如下所示。不同账号-RDS
  • 数据库不在阿里云
    表 5. 表3 数据库在IDC或其他云厂商
    网络连通方案 网络连通配置操作指导
    网络连通方案概览:IDC网络连通方案架构图:IDC
    1. 为独享数据集成资源组绑定一个VPC。
      1. 在DataWorks所在地域新建一个VPC。
      2. 为独享数据集成资源组绑定上述创建的VPC。
    2. 配置数据源和资源组的网络连通。
      1. 使用高速通道或VPN连通资源组VPC和IDC网络。
      2. 在数据源VPC控制台添加路由,连接至目标IDC,详情可参见添加路由
  • 使用经典网络
    不支持网络连通。
    说明 阿里云经典网络已不推荐使用,建议您迁移数据源至VPC。

使用自定义资源组

如果您有富余的服务器资源,也可将此部分资源作为DataWorks中任务运行的资源组使用,DataWorks支持自定义资源组。
注意
  • 您需要开通DataWorks专业版,才可以使用自定义资源组。更多自定义资源组的介绍可参见自定义资源组
数据源所在网络环境 网络连通方案 网络连通配置操作指导
数据源具备访问公网的能力。 直接连接。公网 自定义资源组的详情请参见新增自定义数据集成资源组
说明 请注意公网的收费限制,详情请参见数据集成公网流量计费
数据源和自定义资源组在同一个网络环境(同一VPC/经典网络/IDC网络)。 直接连接。同网络
数据源和自定义资源组在不同网络环境(不同的VPC/经典网络/IDC网络)。 网络连通方案:不同网络 访问其它的VPC、IDC或经典网络,您需要使用高速通道或VPN连通自定义资源组和该数据源所在的网络。

附录

  • 网络连通解决方案如下:
    • 云企业网使用场景示例,请参见云企业网
    • 高速通道使用场景示例,请参见高速通道
    • VPN网关使用场景示例,请参见VPN网关
  • 查看数据集成任务执行集群的方式如下:
    • 任务运行在默认的资源组上,日志中会出现如下信息。
      running in Pipeline[basecommon_ group_xxxxxxxxx]
      - 有RDS数据源时,任务默认下发至OXS集群:running in Pipeline[basecommon_ group_xxx_oxs]
      - 其它数据源默认下发至ECS集群:running in Pipeline[basecommon_ group_xxx_ecs]
    • 任务运行在独享数据集成资源上,日志中会出现如下信息。
      running in Pipeline[basecommon_S_res_group_xxx]
    • 任务运行在数据集成自定义资源组上,日志中会出现如下信息。
      running in Pipeline[basecommon_xxxxxxxxx]

后续步骤

  1. 网络连通配置。
    1. 选择合适的网络连通方案后,您可参考连通方案对应的操作引导配置数据源与资源组的网络连通。
    2. 完成网络连通配置后,您可根据数据库是否开启白名单设置,如果开启了白名单,则您需要将资源组相应的IP地址段添加至数据库的白名单中,避免资源组无法正常读写数据库的数据,详情可参见添加白名单
    3. 如果您的数据库是ECS自建数据库,您还需安全组配置,详情可参见ECS自建数据库的安全组配置
  2. 数据同步任务配置,操作详情请参见以下文档。