新增离线数据同步任务

数据资源平台支持离线数据同步任务的新建。离线数据同步任务支持的云计算资源类型为MySQL、Oracle、SQL Server、Hdfs、ftp、PostgreSQL、Hive、MaxCompute、AnalyticDB PostgreSQL、OSS。本文以同步MySQL数据源到MaxCompute目标端为例,介绍如何新增离线数据同步。

前提条件

  • 已存在对应数据源,具体操作,请参见新建数据源

  • 已完成源端数据和目标端的物理表同步,具体操作,请参见获取物理表

  • 已添加离线数据同步任务目录,具体操作,请参见添加任务目录

操作步骤

  1. 登录数据资源平台控制台

  2. 在页面左上角,单击导航图标 图标,选择研发工作台

  3. 在顶部菜单栏,单击选择工作组图标,选择目标工作组,单击资产加工

    说明

    若您已在资产加工页面,请跳过“单击资产加工”的操作。

  4. 在左侧导航栏,单击数据同步图标,将鼠标悬停在离线数据同步上,单击image图标。

  5. 离线数据同步页面,单击新增任务

  6. 配置任务基本信息:在离线数据同步管理页面上方,填写任务名称、所属类目、描述。基本信息

  7. 配置数据源和目标端。

    1. 数据源配置区域,选择数据源、数据对象、全量/增量、配置自定义条件。image

      说明
      • 如果选择全量,全量同步可自定义输入sql条件根据输入的条件进行全量数据同步(仅限MySQL和PostgreSQL数据资源类型)

      • 如果选择增量,可选择:

        • 增量字段keyvalue

        • 字段数据类型时间字符串整体字符串浮点字符串字符串

          • 数据字段选项仅适用于关系型数据库例如:MySQL、Oracle、SQL Server、PostgreSQL等类型的数据源。

          • 适用的字段类型包括字符串类型字段,类如:

            • Oracle字符串类型varchar,varchar2,char。

            • MySQL字符串类型varchar,char。

        • 取数规则:只针对日期数据做取数规则,其中yyyy表示4位的年份、yy表示2位的年份、mm(MM)表示月、dd表示天、hh24表示小时(12进制使用hh)、mi表示分钟、ss表示秒。您可以任意组合参数,例如$[yyyymmdd]、$[yyyy-mm-dd]、$[hh24miss]、$[hh24:mi:ss]和$[yyyymmddhh24miss]等。

          • ${}表达式可取业务日期数据,最小单位为天,例:${yyyyMMdd},表示取前一天数据,${yyyyMM-1}表示取前一个月数据。

          • $[]表达式取调度时间,最小单位为天,例:$[yyyyMMdd-1/24],表示取当前时间前一小时数据。

          • 支持时间戳取数函数sysMillis(毫秒)、sysSeconds(秒),单位为天,例:${sysMillis},表示取前一天数据。

    2. 目标源配置区域,选择目标端、数据对象、清理规则。image

    3. 配置完成后,单击下一步

  8. 配置字段映射。

    1. 字段映射区域,单击同名映射自动链接同名字段,若字段不同名也可手动链接。字段映射

    2. 配置完成后,单击下一步

  9. 配置任务调度。

    1. 配置任务调度区域,选择任务调度类型,配置同步任务的调度信息。

      • 周期调度image..png

        参数

        说明

        任务调度类型

        选择周期调度

        生效日期

        调度将在有效日期内生效并自动调度,反之,在有效期外的任务将不会自动调度,也不能手动调度。

        调度周期

        全量和增量的调度周期均分为分钟,小时,日,周,月。

        • 分钟:设置间隔时间,指的是每隔多少分钟任务运行一次。

        • 小时:设置间隔时间和指定时间。

          • 间隔时间:指的是每隔多少小时任务运行一次。

          • 指定时间:任务在指定的时间点运行,可多选。

        • 日:设置运行的具体时间。

        • 周:选择每周星期几运行,并设置运行的具体时间,可多选。

        • 月:选择每月几号运行,并设置运行的具体时间,可多选。

        指定运行分钟

        (条件必选)调度周期选择小时的时候,设置任务在指定的时间点运行。

        优先级

        设置任务运行的优先级,可设置为中、高、低三个级别。

        请选择

        请设置任务运行相关配置,可多选。

        • 依赖上一周期:指定任务的上一个周期实例运行完成(包括正常完成和异常完成),才能运行下一个周期实例。

        • 运行异常,下线任务:当任务的实例运行异常时,自动将任务下线。

        • 开启任务预警:选中后,上线的同步任务将自动推送到监控运维的监控任务管理中。

        • 依赖同周期上游节点:选中后,通过选择工作组中的节点,设置同步任务的依赖节点。

        表结构变化

      • 一次性调度image..png

        参数

        说明

        任务调度类型

        选择一次性调度

        运行时间

        请设置任务运行时间。

        • 任务上线立即运行:即单击上线按钮立即运行。

        • 指定时间:在指定时间运行,支持力度到秒。

        开启任务预警

        选中后,上线的同步任务将自动推送到监控运维的监控任务管理中。

        优先级

        设置任务运行的优先级,可设置为中、高、低三个级别。

        表结构变化

        选择是否开启检测表结构变化。开启后,以天为单位,进行数据源端表结构检测。若发现表结构变更,则进行异常推送。异常信息可在“运维监控 - 全景监控”中查看。

    2. 单击展开高级配置,配置任务的资源规格、超时自动终止、速率。高级设置

      参数

      说明

      资源规格

      请设置任务实例运行需要的CPU内核(系统默认2个)与内存(系统默认1024 MB)。

      超时自动终止

      选中后,可配置超时和超时自动重试。

      • 超时:超过该时间,任务停止运行。

        • 周期为时间间隔类型,默认值为3倍间隔时间。

        • 周期为定时类型,默认值为24小时。

      • 超时自动重试: 默认重试0次。

        重要

        超时自动重试配置为1次及以上,且任务运行时间超过配置的超时后,任务将被系统强行终止,请谨慎配置。

      速率

      设置任务的速率上限,任务运行会尽可能达到该速度但是不是超过它。

      • 通道(个):通道数量上限, 即并发线程数量上限。

      • 字节(byte/s)/通道:每个通道每秒传输的字节流上限。

      • 记录(条/s)/通道:每个通道每秒传输的记录数上限。

      说明

      字节流和记录数2个上限,谁先达到,谁先起作用。

    3. 操作完成后,单击提交,在提示对话框中单击确定

相关操作

操作

说明

查看同步任务

在任务列表中,单击目标同步任务操作列的更多,选择查看,可查看同步任务详细内容。

修改同步任务

在任务列表中,对于未运行的同步任务,单击操作列的更多,选择修改,可对同步任务进行修改。

删除同步任务

  • 单个删除:对于未运行的同步任务,在目标同步任务的操作列的更多,选择删除,对同步任务进行删除。

  • 批量删除:在离线数据同步页面,选择需要删除的同步任务,单击页面左下角批量删除,可批量删除同步任务。

查看依赖节点

在目标同步任务的操作列的更多,选择下游节点,可查看当前任务依赖的上游节点和下游节点。

后续步骤

新增同步任务后,需要对任务进行上线操作,具体操作,请参见上线离线数据同步任务

阿里云首页 数据资源平台 相关技术圈