目前数据同步节点支持MaxCompute、MySQL、DRDS、SQL Server、PostgreSQL、Oracle、MongoDB、DB2、OTS、OTS Stream、OSS、FTP、Hbase、LogHub、HDFS和Stream等数据源类型。

更多支持的数据源请参见支持的数据源

新建手动数据同步节点

  1. 单击左侧导航栏中的手动业务流程,进入手动业务流程面板。
  2. 新建业务流程。
    1. 单击左侧导航栏中的手动业务流程,选择新建业务流程
      新建业务流程
    2. 填写业务名称描述,单击新建,即可完成业务流程的新建。
  3. 新建数据同步节点。
    • 打开新建的业务流程,右键单击数据集成
    • 选择新建数据集成节点 > 数据同步
      数据同步
    • 填写新建节点对话框中的配置,单击提交
  4. 配置数据同步节点。

    当您输入表名时,页面会自动显示匹配表名的对象列表(当前仅支持精确匹配,所以请输入完整的正确的表名)。当前同步中心不支持的对象,会被打上不支持标签。

    您可以将鼠标移动至列表对象上,页面会自动展示对象的详细信息,例如表所在的库、IP、Owner等,帮助您选择正确的表对象。选中后鼠标单击对象,列信息会自动填充。您也可以编辑列,包括移动、删除、添加等操作。

    1. 新建数据同步节点后,首先需要配置数据同步节点的读取端数据源,以及需要同步的表等信息。
      配置来源
      说明
      • 选择读取端的数据源时,请参见配置Reader
      • 很多任务在配置读取端数据源时,需要进行数据增量同步。此时可以结合DataWorks提供的参数配置来获取相对日期,以完成获取增量数据的需求。
    2. 配置完成读取端数据源信息后,可以配置右侧的写入端数据源,以及需要写入的表信息等。
      说明
      • 选择写入端的数据源时,请参见配置Writer
      • 很多任务在写入时,需要选择写入模式。例如覆盖写入还是追加写入,针对不同的数据源,有不同的写入模式。
      • 增量同步与全量同步。
        • 增量同步分区格式:ds=${bizdate}
        • 全量同步分区格式:ds=*
        说明 如果需要同步多个分区,同步中心支持简单的正则表达式。
        • 例如需要同步多个分区,但是正则又不好写,可以选择这种方式:ds=20180312 | ds=20180313 | ds=20180314;
        • 需要同步一个区间内的分区,同步中心扩展了一种语法,类似/*query*/ds>=20180313 and ds<20180315;这种方式,一定要加上/query/。
        • 变量bizdate必须在下面的参数中做定义-p"-Dbizdate=$bizdate -Denv_path=$env_path -Dhour=$hour"。如果您需要自定义变量,如pt=${selfVar},则对应也需要在参数中定义,如-p"-Dbizdate=$bizdate -Denv_path=$env_path -Dhour=$hour -DselfVar=xxxx
    3. 配置字段的映射关系。
      选择好数据来源和数据去向后,需要指定读取端和写入端列的映射关系,可以选择同名映射同行映射取消映射自动排版
      映射
    4. 字段映射。
      根据源表和宿表字段位置对应,与字段名称、字段类型无关。
      字段映射
      说明 如果源表为ODPS表时,无法在数据同步时新增字段,非ODPS表可以在据同步时添加字段。
    5. 通道控制。
      通道控制
      配置 说明
      任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
      同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
      错误记录数 错误记录数,表示脏数据的最大容忍条数。
      任务资源组 任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买独享数据集成资源或添加自定义资源组,详情请参见DataWorks独享资源新增任务资源
  5. 节点调度配置。

    单击节点编辑区域右侧的调度配置,即可进入节点调度配置页面,详情请参见调度配置模块。

  6. 提交节点任务。

    完成调度配置后,单击左上角的保存,提交(提交并解锁)到开发环境。

  7. 发布节点任务。

    具体操作请参见发布管理

  8. 在生产环境测试。

    具体操作请参见周期任务