数据集成通过部署Agent,可以打通任意网络环境之间的数据传输同步。本文将为您介绍如何在两端数据源均无法连通的情况下,进行数据同步。

仅一端数据源无法连通的情况请参见(一端不通)数据源网络不通的情况下的数据同步

场景说明

复杂网络环境主要包含以下两种情况:

  • 数据的来源端和目标端有一端为私网环境。
    • VPC环境(除RDS)<->公网环境
    • 金融云环境<->公网环境
    • 本地自建无公网环境<->公网环境
  • 数据的来源端和目标端均为私网环境。
    • VPC环境(除RDS)<->VPC环境(除RDS)
    • 金融云环境<->金融云环境
    • 本地自建无公网环境<->本地自建无公网环境
    • 本地自建无公网环境<->VPC环境(除RDS)
    • 本地自建无公网环境<->金融云环境

实现逻辑

针对第二种复杂网络环境,可以在两端数据源的相同网络环境下,均部署数据集成Agent。来源端Agent负责推送数据至数据集成服务端,目标端Agent负责拉取数据至本地,且数据在传输过程中进行数据的分块、压缩和加密,以保障数据传输的及时性和安全性。
实现逻辑

配置数据源

  1. 以开发者身份登录DataWorks控制台,单击对应工作空间后的进入数据集成
  2. 选择同步资源管理 > 数据源,单击新增数据源
    新增数据源
  3. 新增数据源弹出框中,选择数据源类型为FTP
  4. 填写FTP数据源的各配置项。

    此处选择连接串模式(数据集成网络不可直接连通)类型的数据源。

    添加源端和目标端的数据源
    添加数据源
    配置 说明
    数据源类型 当前选择的数据源类型为FTP > 连接串模式(数据集成网络不可直接连通)

    选择此类型的数据源需要使用自定义调度资源才能进行同步,您可以单击帮助手册查看详情。

    数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
    数据源描述 对数据源进行简单描述,不得超过80个字符。
    适用环境 可以选择开发生产环境。
    说明 仅标准模式工作空间会显示此配置。
    资源组 是选择部署Agent的机器,来源端Agent负责推送数据至数据集成服务端,目标端Agent负责拉取数据至本地。详情请参见新增任务资源
    Portocol 目前仅支持FTP和SFTP协议。
    Host 对应FTP主机的IP地址。
    Port 如果选择的是FTP协议,则端口默认为21。如果选择的是SFTP协议,则端口默认为22。
    用户名/密码 访问该FTP服务的账号密码。
  5. 单击完成

新建数据同步节点

  1. 单击左上角的DataWorks图标,选择全部产品 > DataStudio(数据开发)
  2. 进入DataStudio(数据开发)页面,选择新建 > 业务流程

  3. 新建业务流程对话框中,填写业务流程名称描述,单击新建
  4. 展开业务流程,右键单击数据集成,选择新建数据集成节点 > 数据同步,输入节点名称

  5. 单击提交

导入模板

  1. 成功创建数据同步节点后,单击工具栏中的转换脚本

  2. 单击提示对话框中的确认,即可进入脚本模式进行开发。
    说明 脚本模式支持更多功能,例如网络不可达情况下的同步任务编辑。
  3. 单击工具栏中的导入模板

  4. 选择从来源端的FTP数据源同步至目标端的FTP数据源的导入模板,单击确认
    导入模板
    配置 说明
    来源类型 选择FTP
    数据源 选择新建的来源端的数据源。
    目标类型 选择FTP
    数据源 选择新建的目标端的数据源。
  5. 导入模板后,根据自身需求进行代码的编辑。

运行同步任务

您可以通过以下两种方式运行任务:

  • 在数据同步节点的编辑页面,直接单击运行
  • 调度运行,提交调度的步骤请参见调度配置