目前数据同步任务支持的数据源类型包括MaxCompute、MySQL、DRDS、SQL Server、PostgreSQL、Oracle、MongoDB、DB2、OTS、OTS Stream、OSS、FTP、Hbase、LogHub、HDFS和Stream,更多支持的数据源请参见支持的数据源

  1. 新建业务流程。

    单击左侧导航栏中的手动业务流程,选择新建业务流程



  2. 新建数据同步节点。
    右键单击数据集成,选择新建数据集成节点 > 数据同步

  3. 配置同步任务。

    同步中心任务配置非常简单,只需要输入原表名称和目标表名称即可完成一个简单的任务配置。

    当您输入表名时,页面会自动弹所有匹配表名的对象列表(当前只支持精确匹配,所以请输入完整的正确的表名),有些对象是当前同步中心不支持的,会被打上不支持标签。您可以将鼠标移动到列表对象上,页面会自动展示对象的详细信息,例如表所在库、IP、Owner等,这些信息可以协助你选择正确的表对象。选中后鼠标点击对象,列信息会自动填充。您也可以编辑列,包括移动、删除、添加等操作。

    1. 配置同步表。

    2. 编辑数据来源。
      一般情况下不需要对来源表内容进行编辑,除非您有需要。
      • 单击列右侧的插入可以插入新的列。
      • 单击列右侧的删除,可以删除列。
    3. 编辑数据去向。
      一般情况下不需要对去向表的字段信息进行编辑,除非您有需要,例如只需要导入部分列的数据。
      说明 目的端是ODPS表时,不支持删除列同步中心的配置当中,源头表和目的表的字段配置是按照配置页面的顺序一一匹配的,而不是按照字段名称。
    4. 增量同步与全量同步。
      • 增量同步分区格式:ds=${bizdate}
      • 全量同步分区格式:ds=*
      说明 如果需要同步多个分区,同步中心支持简单的正则表达式。
      • 例如需要同步多个分区,但是正则又不好写,可以选择这种方式:ds=20180312 | ds=20180313 | ds=20180314;
      • 需要同步一个区间内的分区,同步中心扩展了一种语法,类似/*query*/ds>=20180313 and ds<20180315;这种方式,一定要加上/query/。
      • 变量bizdate必须在下面的参数中做定义-p"-Dbizdate=$bizdate -Denv_path=$env_path -Dhour=$hour"。如果您需要自定义变量,如pt=${selfVar},则对应也需要在参数中定义,如-p"-Dbizdate=$bizdate -Denv_path=$env_path -Dhour=$hour -DselfVar=xxxx
    5. 字段映射。

      根据源表和宿表字段位置对应,与字段名称、字段类型无关。



      说明 如果源表为ODPS表时,无法在数据同步时新增字段,非ODPS表可以在据同步时添加字段。
    6. 通道控制。
      通道控制
      配置 说明
      任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
      同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
      错误记录数 错误记录数,表示脏数据的最大容忍条数。
      任务资源组 任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买独享数据集成资源或添加自定义资源组,详情请参见DataWorks独享资源新增任务资源
  4. 节点调度配置。

    单击节点任务编辑在区域右侧的调度配置,即可进入节点调度配置页面,详情请参见调度配置模块。

  5. 提交节点任务。

    完成调度配置后,单击左上角的保存,提交(提交并解锁)到开发环境。

  6. 发布节点任务。

    具体操作请参见发布管理

  7. 在生产环境测试。

    具体操作请参见周期任务