离线数据同步

数据资源平台支持离线任务的新建,并支持一键启动多个上云任务;通过创建离线同步任务,选择已经注册的数据源端数据,并选定目标端,实现全量任务自动建表,可批量创建。本章节以MySQL to MaxCompute为例介绍。

前提条件

  • 已存在对应数据源,具体操作请参见同步数据源

  • 已完成源端数据和目标端数据源同步Meta,具体操作请参见同步元数据

操作步骤

  1. 登录数据资源平台控制台

  2. 在页面左上角单击导航图标 图标,选择研发工作台,单击顶部菜单资产加工

  3. 在顶部工作组下拉列表中,选择目标工作组。

  4. 左侧导航栏选择数据同步.png > 离线数据同步p319661

  5. 在周期任务管理页面的目录区域:

    1. 单击目录新建图标(添加子集目录)。

    2. 在目录新建页面,输入目录名称、目录描述等信息,操作完成后单击确认22

  6. 在周期任务管理页面,有两种新建周期任务方式。

    1. 单击新增任务,对单个离线数据进行上云。

      1. 在填写基本信息区域,填写基本信息,操作完成后,单击选择数据源

        2
      2. 在选择数据源区域,选择数据源 > 数据对象,操作完成后,单击选择目标端

        说明

        如果选择增量,可选择:

        • 增量字段keyvalue

        • 字段数据类型时间字符串整体字符串浮点字符串字符串

          • 数据字段选项仅适用于关系型数据库例如:MySQL、Oracle、SQL Server、PostgreSQL等类型的数据源。

          • 适用的字段类型包括字符串类型字段,类如:

            • Oracle字符串类型varchar,varchar2,char。

            • MySQL字符串类型varchar,char。

        • 取数规则:只针对日期数据做取数规则,其中yyyy表示4位的年份、yy表示2位的年份、mm(MM)表示月、dd表示天、hh24表示小时(12进制使用hh)、mi表示分钟、ss表示秒。您可以任意组合参数,例如$[yyyymmdd]、$[yyyy-mm-dd]、$[hh24miss]、$[hh24:mi:ss]和$[yyyymmddhh24miss]等。

          • ${}表达式可取业务日期数据,最小单位为天,例:${yyyyMMdd},表示取前一天数据,${yyyyMM-1}表示取前前一个月数据。

          • $[]表达式取调度时间,最小单位为天,例:$[yyyyMMdd-1/24],表示取当前时间前一小时数据。

          • 支持时间戳取数函数sysMillis(毫秒)、sysSeconds(秒),单位为天,例:${sysMillis},表示取前一天数据。

        3
      3. 在选择目标端区域,选择目标端 > 数据对象,操作完成后,单击字典映射

        6
      4. 在字段映射区域,单击同名映射自动链接同名字段;如果字段不同名也可手工链接,操作完成后,单击配置任务调度

        4
      5. 在配置任务调度区域,按提示输入配置信息,操作完成后单击提交,周期任务完成创建。

        8周期调度任务输入项

        输入项

        说明

        任务调度类型

        周期调度与一次性调度。

        生效日期(周期调度)

        调度将在有效日期内生效并自动调度,反之,在有效期外的任务将不会自动调度,也不能手动调度。

        调度周期(周期调度)

        全量和增量的调度周期均分为分钟,小时,日,星期,月。

        时间间隔(周期调度)

        指的是每隔多少分钟、小时任务运行一次。

        指定时间(周期调度)

        任务在在指定的时间点运行。

        调度类型(周期调度)

        依赖上一周期:指定任务的上一个周期实例运行完成(包括正常完成和异常完成),才能运行下一个周期实例。运行异常,下线任务:当任务的实例运行异常时,自动将任务下线。任务上线立即运行:即任务上线启动后立即运行。

        说明

        支持多选。

        运行时间(一次性调度)

        任务上线立即运行:即单击上线按钮立即运行。指定时间:在指定时间运行,支持力度到秒。

        资源规格(高级配置)

        该任务实例运行需要的CPU内核(系统默认2个)与内存(系统默认1024M)。超时(分钟):周期为时间间隔类型,默认值为3倍间隔时间;周期为定时类型,默认值为24小时

    2. 单击批量新增任务,对离线数据进行批量上云。

      1. 在选择数据源区域,选择数据源类型 > 数据源,选择需要批量上云的数据对象,操作完成后,单击选择目标端11

      2. 在选择目标端区域,选择目标端类型 > 目标端,操作完成后 ,单击配置任务调度12

      3. 在配置任务调度区域,按提示输入配置信息,操作完成后,单击review任务13

      4. review任务区域中,确定任务信息无误后单击提交14

相关任务

任务

操作步骤

上线

周期任务管理页面,在任务操作列单击上线,对已新建的离线数据同步任务进行上线运行。

下线

周期任务管理页面,在任务操作列单击下线,对已上线的离线数据同步进行下线。

监控

周期任务管理页面,在任务操作列单击监控,对周期任务的运行情况进行查看。

查看

周期任务管理页面,在任务操作列单击监控,对周期任务的基本信息、选择的数据源及目标端、配置的任务调度等详细配置信息进行查看。

修改

周期任务管理页面,在任务操作列单击修改,对周期任务的基本信息、选择的数据源及目标端、配置的任务调度等详细配置信息进行修改。

删除

周期任务管理页面,在任务操作列单击删除,对已下线周期任务进行删除,出现删除提醒,单击确认

批量上线

周期任务管理页面,选择多个任务,单击任务列表下的批量上线,对多个已新建的离线数据同步任务进行上线运行。

批量下线

周期任务管理页面,选择多个任务,单击任务列表下的批量下线,对多个已上线的离线数据同步进行下线。

批量删除

周期任务管理页面,选择多个任务,单击任务列表下的批量删除,对多个已下线的离线数据同步进行删除,出现删除提醒,单击确认