新增离线数据同步任务
数据资源平台支持离线数据同步任务的新建。离线数据同步任务支持的云计算资源类型为MySQL、Oracle、SQL Server、Hdfs、ftp、PostgreSQL、Hive、MaxCompute、AnalyticDB PostgreSQL、OSS。本文以同步MySQL数据源到MaxCompute目标端为例,介绍如何新增离线数据同步。
前提条件
操作步骤
登录数据资源平台控制台。
在页面左上角,单击
图标,选择研发工作台。
在顶部菜单栏,单击
图标,选择目标工作组,单击资产加工。
说明若您已在资产加工页面,请跳过“单击资产加工”的操作。
在左侧导航栏,单击
图标,将鼠标悬停在离线数据同步上,单击
图标。
在离线数据同步页面,单击新增任务。
配置任务基本信息:在离线数据同步管理页面上方,填写任务名称、所属类目、描述。
配置数据源和目标端。
在数据源配置区域,选择数据源、数据对象、全量/增量、配置自定义条件。
说明如果选择全量,全量同步可自定义输入sql条件根据输入的条件进行全量数据同步(仅限MySQL和PostgreSQL数据资源类型)
如果选择增量,可选择:
增量字段key或value。
字段数据类型时间字符串、整体字符串、浮点字符串、字符串。
数据字段选项仅适用于关系型数据库例如:MySQL、Oracle、SQL Server、PostgreSQL等类型的数据源。
适用的字段类型包括字符串类型字段,类如:
Oracle字符串类型varchar,varchar2,char。
MySQL字符串类型varchar,char。
取数规则:只针对日期数据做取数规则,其中yyyy表示4位的年份、yy表示2位的年份、mm(MM)表示月、dd表示天、hh24表示小时(12进制使用hh)、mi表示分钟、ss表示秒。您可以任意组合参数,例如$[yyyymmdd]、$[yyyy-mm-dd]、$[hh24miss]、$[hh24:mi:ss]和$[yyyymmddhh24miss]等。
${}表达式可取业务日期数据,最小单位为天,例:${yyyyMMdd},表示取前一天数据,${yyyyMM-1}表示取前一个月数据。
$[]表达式取调度时间,最小单位为天,例:$[yyyyMMdd-1/24],表示取当前时间前一小时数据。
支持时间戳取数函数sysMillis(毫秒)、sysSeconds(秒),单位为天,例:${sysMillis},表示取前一天数据。
在目标源配置区域,选择目标端、数据对象、清理规则。
配置完成后,单击下一步。
配置字段映射。
在字段映射区域,单击同名映射自动链接同名字段,若字段不同名也可手动链接。
配置完成后,单击下一步。
配置任务调度。
在配置任务调度区域,选择任务调度类型,配置同步任务的调度信息。
周期调度
参数
说明
任务调度类型
选择周期调度。
生效日期
调度将在有效日期内生效并自动调度,反之,在有效期外的任务将不会自动调度,也不能手动调度。
调度周期
全量和增量的调度周期均分为分钟,小时,日,周,月。
分钟:设置间隔时间,指的是每隔多少分钟任务运行一次。
小时:设置间隔时间和指定时间。
间隔时间:指的是每隔多少小时任务运行一次。
指定时间:任务在指定的时间点运行,可多选。
日:设置运行的具体时间。
周:选择每周星期几运行,并设置运行的具体时间,可多选。
月:选择每月几号运行,并设置运行的具体时间,可多选。
指定运行分钟
(条件必选)调度周期选择小时的时候,设置任务在指定的时间点运行。
优先级
设置任务运行的优先级,可设置为中、高、低三个级别。
请选择
请设置任务运行相关配置,可多选。
依赖上一周期:指定任务的上一个周期实例运行完成(包括正常完成和异常完成),才能运行下一个周期实例。
运行异常,下线任务:当任务的实例运行异常时,自动将任务下线。
开启任务预警:选中后,上线的同步任务将自动推送到监控运维的监控任务管理中。
依赖同周期上游节点:选中后,通过选择工作组中的节点,设置同步任务的依赖节点。
表结构变化
一次性调度
参数
说明
任务调度类型
选择一次性调度。
运行时间
请设置任务运行时间。
任务上线立即运行:即单击上线按钮立即运行。
指定时间:在指定时间运行,支持力度到秒。
开启任务预警
选中后,上线的同步任务将自动推送到监控运维的监控任务管理中。
优先级
设置任务运行的优先级,可设置为中、高、低三个级别。
表结构变化
选择是否开启检测表结构变化。开启后,以天为单位,进行数据源端表结构检测。若发现表结构变更,则进行异常推送。异常信息可在“运维监控 - 全景监控”中查看。
单击展开高级配置,配置任务的资源规格、超时自动终止、速率。
参数
说明
资源规格
请设置任务实例运行需要的CPU内核(系统默认2个)与内存(系统默认1024 MB)。
超时自动终止
选中后,可配置超时和超时自动重试。
超时:超过该时间,任务停止运行。
周期为时间间隔类型,默认值为3倍间隔时间。
周期为定时类型,默认值为24小时。
超时自动重试: 默认重试0次。
重要当超时自动重试配置为1次及以上,且任务运行时间超过配置的超时后,任务将被系统强行终止,请谨慎配置。
速率
设置任务的速率上限,任务运行会尽可能达到该速度但是不是超过它。
通道(个):通道数量上限, 即并发线程数量上限。
字节(byte/s)/通道:每个通道每秒传输的字节流上限。
记录(条/s)/通道:每个通道每秒传输的记录数上限。
说明字节流和记录数2个上限,谁先达到,谁先起作用。
操作完成后,单击提交,在提示对话框中单击确定。
相关操作
操作 | 说明 |
查看同步任务 | 在任务列表中,单击目标同步任务操作列的更多,选择查看,可查看同步任务详细内容。 |
修改同步任务 | 在任务列表中,对于未运行的同步任务,单击操作列的更多,选择修改,可对同步任务进行修改。 |
删除同步任务 |
|
查看依赖节点 | 在目标同步任务的操作列的更多,选择下游节点,可查看当前任务依赖的上游节点和下游节点。 |
后续步骤
新增同步任务后,需要对任务进行上线操作,具体操作,请参见上线离线数据同步任务。