DataWorks支持实时同步数据,本文为您介绍如何创建、编辑、提交和运维实时同步节点。
前提条件
创建实时同步节点
编辑实时同步节点
选择不同的同步方式,实时同步节点的编辑页面也不同:
- 当选择同步方式为单表(Topic)到单表(Topic)ETL时,操作如下:
- 双击打开实时同步节点的编辑页面,单击右侧的基本配置,从资源组下拉列表中选择需要使用的资源组。
序号 描述 ① 组件区域,包括输入、输出和转换三大模块。 ② 节点的图形化编辑区域,您可以拖拽组件至该区域进行编辑。 ③ 属性配置区域,单击组件或右侧的基本配置时,会显示相应的属性配置面板。 注意 请务必选择资源组,否则提交节点时会报错。实时同步仅支持运行在独享数据集成资源组上,详情请参见新增和使用独享数据集成资源组。 - 根据自身需求,从组件区域拖拽相应的组件至节点的编辑区域,并通过连线完成相应的节点关系连接,数据会根据连线从上游同步至下游。
下图为您展示新建MySQL数据实时同步至MaxCompute的过程。
- 单击相应的节点,在节点配置对话框中,配置各项参数。详情请参见实时同步。
- 单击工具栏中的
图标。
- 双击打开实时同步节点的编辑页面,单击右侧的基本配置,从资源组下拉列表中选择需要使用的资源组。
- 当选择同步方式为数据库迁至Hologres时,操作如下:
- 双击打开实时同步节点的编辑页面,单击右侧的基本配置,从资源组下拉列表中选择需要使用的资源组。注意 请务必选择资源组,否则提交节点时会报错。实时同步仅支持运行在独享数据集成资源组上,详情请参见新增和使用独享数据集成资源组。
- 在数据来源区域,选择类型和数据源。
- 在选择同步的源表区域,选中需要同步的源表,单击
图标,将其移动至已选源表。
该区域会为您展示所选数据源下所有的表,您可以选择整库全表和部分表进行同步。注意 如果选中的表没有主键,将无法进行实时同步。 - 可选:在设置同步规则区域,单击添加规则,选择相应的规则进行添加。
同步规则包括表名转换规则和目标表名规则:
- 表名转换规则:转换表名为目标表名,进行字符串替换。
- 目标表名规则:支持对转换后的表名添加前缀和后缀。
- 单击下一步。
- 在设置目标表页面,选择目标Hologres数据源和该数据源下的Schema。
- 单击刷新源表和Hologres表映射,创建需要同步的源表和目标Hologres表的映射关系。
- 查看任务的执行进度和表来源,单击下一步。
序号 描述 ① 显示映射关系的创建进度。 说明 如果同步的表数量较多,会导致执行进度较慢,请耐心等待。② 包括自动建表和使用已有表。 说明 暂不支持同步没有主键的表。但只要选择的表中包括有主键的表,会正常执行流程,没有主键的表会被忽略。③ 选择的表建立方式不同,此处显示的Hologres表名也不同: - 当表建立方式选择自动建表时,单击下一步,会显示自动建表对话框。请单击开始建表,创建成功后,单击完成。您可以单击表名称,查看和修改建表语句。
- 当表建立方式选择使用已有表时,请在下拉列表中选择需要的表。
- 在运行资源设置页面,配置来源端读取支持最大连接数和目标端写入并发数,并单击工具栏中的
图标。
- 双击打开实时同步节点的编辑页面,单击右侧的基本配置,从资源组下拉列表中选择需要使用的资源组。
- 当选择同步方式为数据库迁至MaxCompute时,操作如下:
- 双击打开实时同步节点的编辑页面,单击右侧的基本配置,从资源组下拉列表中选择需要使用的资源组。
- 在数据来源区域,选择类型和数据源。
- 在选择同步的源表区域,选中需要同步的源表,单击
图标,将其移动至已选源表。
该区域会为您展示所选数据源下所有的表,您可以选择整库全表和部分表进行同步。注意 如果选中的表没有主键,将无法进行实时同步。 - 可选:在设置同步规则区域,单击添加规则,选择相应的规则进行添加。
同步规则包括表名转换规则和目标表名规则:
- 表名转换规则:转换表名为目标表名,进行字符串替换。
- 目标表名规则:支持对转换后的表名添加前缀和后缀。
- 单击下一步。
- 在设置目标表页面,选择目标MaxCompute(ODPS)数据源,单击MaxCompute(ODPS)时间自动分区设置后的
图标,在编辑对话框中,修改目标MaxCompute分区的设置(支持天和小时级别的分区)。
- 单击刷新源表和MaxCompute(ODPS)表映射,创建需要同步的源表和目标MaxCompute表的映射关系。
- 查看任务的执行进度和表来源,单击下一步。
序号 描述 ① 显示映射关系的创建进度。 说明 如果同步的表数量较多,会导致执行进度较慢,请耐心等待。② 包括自动建表和使用已有表。 说明 暂不支持同步没有主键的表。但只要选择的表中包括有主键的表,会正常执行流程,没有主键的表会被忽略。③ 选择的表建立方式不同,此处显示的MaxCompute表名也不同: - 当表建立方式选择自动建表时,单击下一步,会显示自动建表对话框。请单击开始建表,创建成功后,单击完成。您可以单击表名称,查看和修改建表语句。
- 当表建立方式选择使用已有表时,请在下拉列表中选择需要的表。
- 在运行资源设置页面,配置来源端读取支持最大连接数和目标端写入并发数,并单击工具栏中的
图标。
- 当选择同步方式为数据库迁至DataHub时,操作如下:
- 双击打开实时同步节点的编辑页面,单击右侧的基本配置,从资源组下拉列表中选择需要使用的资源组。
- 在数据来源区域,选择类型和数据源。
- 在选择同步的源表区域,选中需要同步的源表,单击
图标,将其移动至已选源表。
该区域会为您展示所选数据源下所有的表,您可以选择整库全表和部分表进行同步。注意 如果选中的表没有主键,将无法进行实时同步。 - 在设置同步规则区域,单击添加规则,选择相应的规则进行添加。
同步规则包括源表名和Topic转换规则和目标Topic规则。
- 单击下一步。
- 在设置目标表页面,选择目标DataHub数据源,单击刷新源表和DataHub Topic映射,创建需要同步的源表和目标Topic的映射关系。
- 查看任务的执行进度和Topic来源,单击下一步。
序号 描述 ① 显示映射关系的创建进度。 说明 如果同步的Topic数量较多,会导致执行进度较慢,请耐心等待。② 包括自动建表和使用已有Topic。 ③ 选择的Topic建立方式不同,此处显示的DataHub Topic也不同: - 当Topic建立方式选择自动建表时,单击下一步,会显示自动建表对话框。请单击开始建表,创建成功后,单击完成。
- 当Topic建立方式选择使用已有Topic时,请在下拉列表中选择需要的Topic。
- 在运行资源设置页面,配置来源端读取支持最大连接数和目标端写入并发数,并单击工具栏中的
图标。