新增离线数据同步任务

更新时间: 2024-01-16 11:22:06

数据同步支持离线数据同步任务的新建。离线数据同步任务支持的云计算资源类型为MySQL、Oracle、SQL Server、Hdfs、ftp、PostgreSQL、Hive、MaxCompute、AnalyticDB PostgreSQL、OSS。本文以同步MySQL数据源到MaxCompute目标端为例,介绍如何新增离线数据同步。

前提条件

  • 已存在对应数据源,具体操作,请参见新建数据源

  • 已完成源端数据和目标端的物理表同步,具体操作,请参见获取物理表

  • 已添加离线数据同步任务目录,具体操作,请参见添加任务目录

操作步骤

  1. 登录数据资源平台控制台

  2. 在页面左上角,单击导航图标 图标,选择协同

  3. 在顶部菜单栏,单击选择工作组图标,选择目标工作组,单击资产加工

  4. 在左侧导航栏,单击数据同步图标,将鼠标悬停在离线数据同步上,单击image图标。

  5. 离线数据同步页面,单击新增任务

  6. 配置任务基本信息:在离线数据同步管理页面上方,填写任务名称、所属类目、描述。

  7. 配置同步资源,包括源端和目标端。

    参数

    说明

    源端配置

    数据源

    选择源端数据源。

    • 单击查看同步链路支持范围,可查看离线同步链路源端和目标端支持范围。

    • 在数据源下拉列表,单击创建数据源,可在弹出的面板中新建云计算资源。

    数据表

    选择待同步的数据表。

    • 在数据表下拉列表,单击获取物理表,可获取最新物理表Meta信息。

    • 选择待同步的数据表后,单击查看字段信息,可查看待同步物理表字段信息详情。

    同步模式

    支持全量和增量两种同步模式。

    • 如果选择全量,全量同步可自定义输入sql条件根据输入的条件进行全量数据同步(仅限MySQL和PostgreSQL数据资源类型)

    • 如果选择增量,可选择:

      • 增量字段keyvalue

      • 字段数据类型时间字符串整体字符串浮点字符串字符串

        • 数据字段选项仅适用于关系型数据库例如:MySQL、Oracle、SQL Server、PostgreSQL等类型的数据源。

        • 适用的字段类型包括字符串类型字段,类如:

          • Oracle字符串类型varchar,varchar2,char。

          • MySQL字符串类型varchar,char。

      • 取数规则:只针对日期数据做取数规则,其中yyyy表示4位的年份、yy表示2位的年份、mm(MM)表示月、dd表示天、hh24表示小时(12进制使用hh)、mi表示分钟、ss表示秒。您可以任意组合参数,例如$[yyyymmdd]、$[yyyy-mm-dd]、$[hh24miss]、$[hh24:mi:ss]和$[yyyymmddhh24miss]等。

        • ${}表达式可取业务日期数据,最小单位为天,例:${yyyyMMdd},表示取前一天数据,${yyyyMM-1}表示取前一个月数据。

        • $[]表达式取调度时间,最小单位为天,例:$[yyyyMMdd-1/24],表示取当前时间前一小时数据。

        • 支持时间戳取数函数sysMillis(毫秒)、sysSeconds(秒),单位为天,例:${sysMillis},表示取前一天数据。

    自定义条件

    支持填写SQL语句下WHERE子句限定条件(无需填写WHERE关键字),同步时会使用此限定条件进行数据过滤,当前暂不支持使用变量参数,示例:mydate<'2022-12-19'。

    目标端配置

    目标端

    选择目标端数据源。

    在数据源下拉列表,单击创建数据源,可在弹出的面板中新建云计算资源。

    数据表

    选择或新建同步目标数据表。

    • 在数据表下拉列表,单击创建目标对象,可创建表作为同步目标数据表,支持创建分区表。

    • 在数据表下拉列表,单击获取物理表,可获取最新物理表Meta信息。

    分区字段

    分区字段信息。

    写入处理规则

    选择写入处理规则,包括写入前清理已有数据、保留已有数据。如果设置了取数规则,则该功能不可用。

  8. 配置字段映射:在字段映射区域,系统默认为同名映射,可根据需要选择同行映射或通过拖拽连线自定义完成字段映射。

  9. 配置通用控制。

    参数

    说明

    依赖配置

    支持配置上游依赖节点,可依赖同周期数据同步节点或数据开发节点。开启后将等待上游节点调度运行成功后,再运行当前节点。

    表结构变化

    选择是否开启检测表结构变化。开启后,以天为单位,进行数据源端表结构检测。若发现表结构变更,则进行异常推送。异常信息可在“运维监控 - 全景监控”中查看。

    资源组

    选择资源组。

    资源规格

    请设置任务实例运行需要的CPU内核(系统默认2个)与内存(系统默认1024 MB)。

    速率

    设置任务的速率上限,任务运行会尽可能达到该速度但是不是超过它。

    • 字节/秒:每个通道每秒传输的字节流上限。

    • 记录/条:每个通道每秒传输的记录数上限。

    说明

    字节流和记录数两个上限,谁先达到,谁先起作用。

  10. 在页面右侧单击调度配置,配置任务调度。

    参数

    说明

    周期调度

    依赖本节点上一周期调度

    打开周期调度开关后,选择是否打开依赖本节点上一周期调度开关。

    任务异常自动下线

    选择是否打开任务异常自动下线开关。

    生效日期

    调度将在有效日期内生效并自动调度,反之,在有效期外的任务将不会自动调度,也不能手动调度。

    调度周期

    全量和增量的调度周期均分为分钟,小时,日,周,月。

    • 分钟:设置开始时间、结束时间和时间间隔。时间间隔指的是每隔多少分钟任务运行一次。

    • 小时:设置开始时间、结束时间和时间间隔。间隔时间指的是每隔多少小时任务运行一次。

    • 天:设置同步任务每天运行的具体时间。

    • 周:选择每周星期几运行,并设置运行的具体时间,可多选。

    • 月:选择每月几号运行,并设置运行的具体时间,可多选。

    时间表达式(cron)

    选中手动修改,可自定义时间表达式。

    失败重试

    重试次数

    打开失败重试开关后,可设置任务重试次数。

    重试间隔(秒)

    设置任务重试间隔,单位为秒。

    超时时间

    设置任务的超时时间,单位为分钟。

    监控配置

    开启后,上线的同步任务将自动推送到监控运维的监控任务管理中,默认开启监控配置。

  11. 配置完成后,在离线数据同步管理页面左上角,单击image.png图标。

    系统提示任务创建成功。

相关操作

操作

说明

查看同步任务

在任务列表中,单击目标同步任务操作列的更多,选择查看,可查看同步任务详细内容。

修改同步任务

在任务列表中,对于未运行的同步任务,单击操作列的更多,选择修改,可对同步任务进行修改。

删除同步任务

  • 单个删除:对于未运行的同步任务,在目标同步任务的操作列的更多,选择删除,对同步任务进行删除。

  • 批量删除:在离线数据同步页面,选择需要删除的同步任务,单击页面左下角批量删除,可批量删除同步任务。

查看依赖节点

在目标同步任务的操作列的更多,选择下游节点,可查看当前任务依赖的上游节点和下游节点。

查看运行记录

单击目标同步任务的操作列的运行记录,即可查看同步任务的运行记录。

后续步骤

新增同步任务后,需要对任务进行上线操作,具体操作,请参见上线离线数据同步任务

阿里云首页 数据资源平台 相关技术圈