全量数据同步

通过选择已注册的数据源端数据和目标端,实现全量任务自动建表的方式创建离线同步周期任务,本文介绍如何创建MySQL to MaxCompute离线全量数据同步一次性调度的任务。

前提条件

  1. 已新建工作组,具体操作,请参见新建工作组

  2. 已在工作组中分别添加数据源类型为MaxCompute、RDS MySQL的数据源,具体操作,请参见新建云计算资源

  3. 已获取数据源的物理表,具体操作,请参见获取物理表

  4. RDS MySQL数据源已有ys_yhkh表作为数据同步来源表,表结构及数据获取请参见RDS脚本

操作步骤

  1. 登录数据资源平台控制台

  2. 在页面左上角,选择菜单协同

  3. 在顶部菜单栏,单击选择工作组图标,选择目标工作组。

  4. 在左侧导航栏,单击数据同步.png离线数据同步

  5. 离线数据同步页面,单击新增任务

  6. 离线数据同步管理页面,配置离线同步周期任务。

    1. 填写基本信息,任务名称“信用卡客户数据上云_全量”。

    2. 源端配置区域,配置数据源端。

      参数

      说明

      示例

      数据源

      数据来源端的数据源类型以及该类型下已添加的数据源。

      MySQL/dataq_dws_rds

      数据表

      数据源中数据实际来源表。

      ys_yhkh(未上云)

      同步模式

      数据进行同步的方式,默认全量。

      全量

      自定义条件

      支持输入自定义SQL查询条件,根据条件进行全量数据同步。

      gz>10000

      说明

      全量同步工资大于10000的银行客户数据。

    3. 目标端配置区域,配置目标端数据。

      参数

      说明

      示例

      目标端

      数据写入目标端的数据源类型以及该类型下已添加的数据源。

      MaxCompute/dataq_odps_dev

      数据表

      数据源中数据实际写入的表。

      若目标端数据源中已有该表,单击数据表下拉框进行选中即可。若无目标表,可参考以下步骤进行创建。

      1. 单击数据表下拉列表,选择创建目标对象

      2. 创建表对话窗中,系统会根据上一步配置的数据源数据对象自动生成表名、备注以及字段。您需要将表名修改为“stg_base_yhkh_demo_di“,分区信息为“非分区表”。

      3. 配置完成,单击确定,返回任务配置页面。

      stg_base_yhkh_demo_df

      写入处理规则

      支持数据写入前的清除或保留已有数据。

      写入前清理已有数据

    4. 字段映射区域默认选择同名映射

  7. 配置完成后,在离线数据同步管理页面左上角,单击image.png图标。

  8. 离线数据同步管理页面,选择新增的全量离线数据同步任务,操作列中单击上线

预期结果

  1. 离线数据同步管理页面,选择上线状态的“信用卡客户数据上云_全量”同步任务,在操作列中单击监控,跳转至运维监控下的离线同步实例页面,显示该任务实例运行完成。

    image.png

  2. 前往数据查询模块,单击物理表查询,选择目标端数据源及表“dataq_odps_dev/stg_base_yhkh_demo_df”,在数据预览中可查看“stg_base_yhkh_demo_df”表中已写入gz(工资)大于10000元的数据。

    image.png