新增离线数据同步任务
数据同步支持离线数据同步任务的新建。离线数据同步任务支持的云计算资源类型为MySQL、Oracle、SQL Server、Hdfs、ftp、PostgreSQL、Hive、MaxCompute、AnalyticDB PostgreSQL、OSS。本文以同步MySQL数据源到MaxCompute目标端为例,介绍如何新增离线数据同步。
前提条件
操作步骤
在页面左上角,单击图标,选择协同。
在顶部菜单栏,单击图标,选择目标工作组,单击资产加工。
在左侧导航栏,单击图标,将鼠标悬停在离线数据同步上,单击图标。
在离线数据同步页面,单击新增任务。
配置任务基本信息:在离线数据同步管理页面上方,填写任务名称、所属类目、描述。
配置同步资源,包括源端和目标端。
参数
说明
源端配置
数据源
选择源端数据源。
单击查看同步链路支持范围,可查看离线同步链路源端和目标端支持范围。
在数据源下拉列表,单击创建数据源,可在弹出的面板中新建云计算资源。
数据表
选择待同步的数据表。
在数据表下拉列表,单击获取物理表,可获取最新物理表Meta信息。
选择待同步的数据表后,单击查看字段信息,可查看待同步物理表字段信息详情。
同步模式
支持全量和增量两种同步模式。
如果选择全量,全量同步可自定义输入sql条件根据输入的条件进行全量数据同步(仅限MySQL和PostgreSQL数据资源类型)
如果选择增量,可选择:
增量字段key或value。
字段数据类型时间字符串、整体字符串、浮点字符串、字符串。
数据字段选项仅适用于关系型数据库例如:MySQL、Oracle、SQL Server、PostgreSQL等类型的数据源。
适用的字段类型包括字符串类型字段,类如:
Oracle字符串类型varchar,varchar2,char。
MySQL字符串类型varchar,char。
取数规则:只针对日期数据做取数规则,其中yyyy表示4位的年份、yy表示2位的年份、mm(MM)表示月、dd表示天、hh24表示小时(12进制使用hh)、mi表示分钟、ss表示秒。您可以任意组合参数,例如$[yyyymmdd]、$[yyyy-mm-dd]、$[hh24miss]、$[hh24:mi:ss]和$[yyyymmddhh24miss]等。
${}表达式可取业务日期数据,最小单位为天,例:${yyyyMMdd},表示取前一天数据,${yyyyMM-1}表示取前一个月数据。
$[]表达式取调度时间,最小单位为天,例:$[yyyyMMdd-1/24],表示取当前时间前一小时数据。
支持时间戳取数函数sysMillis(毫秒)、sysSeconds(秒),单位为天,例:${sysMillis},表示取前一天数据。
自定义条件
支持填写SQL语句下WHERE子句限定条件(无需填写WHERE关键字),同步时会使用此限定条件进行数据过滤,当前暂不支持使用变量参数,示例:mydate<'2022-12-19'。
目标端配置
目标端
选择目标端数据源。
在数据源下拉列表,单击创建数据源,可在弹出的面板中新建云计算资源。
数据表
选择或新建同步目标数据表。
在数据表下拉列表,单击创建目标对象,可创建表作为同步目标数据表,支持创建分区表。
在数据表下拉列表,单击获取物理表,可获取最新物理表Meta信息。
分区字段
分区字段信息。
写入处理规则
选择写入处理规则,包括写入前清理已有数据、保留已有数据。如果设置了取数规则,则该功能不可用。
配置字段映射:在字段映射区域,系统默认为同名映射,可根据需要选择同行映射或通过拖拽连线自定义完成字段映射。
配置通用控制。
参数
说明
依赖配置
支持配置上游依赖节点,可依赖同周期数据同步节点或数据开发节点。开启后将等待上游节点调度运行成功后,再运行当前节点。
表结构变化
选择是否开启检测表结构变化。开启后,以天为单位,进行数据源端表结构检测。若发现表结构变更,则进行异常推送。异常信息可在“运维监控 - 全景监控”中查看。
资源组
选择资源组。
资源规格
请设置任务实例运行需要的CPU内核(系统默认2个)与内存(系统默认1024 MB)。
速率
设置任务的速率上限,任务运行会尽可能达到该速度但是不是超过它。
字节/秒:每个通道每秒传输的字节流上限。
记录/条:每个通道每秒传输的记录数上限。
说明字节流和记录数两个上限,谁先达到,谁先起作用。
在页面右侧单击调度配置,配置任务调度。
参数
说明
周期调度
依赖本节点上一周期调度
打开周期调度开关后,选择是否打开依赖本节点上一周期调度开关。
任务异常自动下线
选择是否打开任务异常自动下线开关。
生效日期
调度将在有效日期内生效并自动调度,反之,在有效期外的任务将不会自动调度,也不能手动调度。
调度周期
全量和增量的调度周期均分为分钟,小时,日,周,月。
分钟:设置开始时间、结束时间和时间间隔。时间间隔指的是每隔多少分钟任务运行一次。
小时:设置开始时间、结束时间和时间间隔。间隔时间指的是每隔多少小时任务运行一次。
天:设置同步任务每天运行的具体时间。
周:选择每周星期几运行,并设置运行的具体时间,可多选。
月:选择每月几号运行,并设置运行的具体时间,可多选。
时间表达式(cron)
选中手动修改,可自定义时间表达式。
失败重试
重试次数
打开失败重试开关后,可设置任务重试次数。
重试间隔(秒)
设置任务重试间隔,单位为秒。
超时时间
设置任务的超时时间,单位为分钟。
监控配置
开启后,上线的同步任务将自动推送到监控运维的监控任务管理中,默认开启监控配置。
配置完成后,在离线数据同步管理页面左上角,单击图标。
系统提示任务创建成功。
相关操作
操作 | 说明 |
查看同步任务 | 在任务列表中,单击目标同步任务操作列的更多,选择查看,可查看同步任务详细内容。 |
修改同步任务 | 在任务列表中,对于未运行的同步任务,单击操作列的更多,选择修改,可对同步任务进行修改。 |
删除同步任务 |
|
查看依赖节点 | 在目标同步任务的操作列的更多,选择下游节点,可查看当前任务依赖的上游节点和下游节点。 |
查看运行记录 | 单击目标同步任务的操作列的运行记录,即可查看同步任务的运行记录。 |
后续步骤
新增同步任务后,需要对任务进行上线操作,具体操作,请参见上线离线数据同步任务。