完成数据源、网络、资源的准备配置后,您可以创建并执行整库离线同步任务,开始进行数据同步。本文为您介绍如何创建整库离线同步任务,将指定数据库中的部分或全部表的数据同步至ElasticSearch中,并在创建完成后查看任务运行情况。

前提条件

创建数据同步任务前,需检查已完成以下准备操作。

背景信息

企业的实时数据一般存储在大数据引擎中,实时数据通常会产生许多非结构化的日志数据,这类日志数据以及企业的离线数据可以使用通过Elasticsearch全托管方式提供的冷热存储方案进行存储。基于该功能,DataWorks为您提供了整库离线同步数据至Elasticsearch的解决方案,轻松助力企业同步整库数据至Elasticsearch中。同时,您可以查看创建的同步任务详情,监控任务的运行状况,提高自动化运维管理效率。

整库离线同步任务可以将业务库数据全量或增量同步至ElasticSearch中,用于做数据检索、数据分析或后续进行数据开发。其优势如下:
  • 整库级别同步。

    无需逐个创建表级别的数据同步任务,支持直接创建库级别的同步任务,选择目标库的部分或全部表数据进行同步。

  • 同步方式多样。

    支持全量、增量以及全量和增量相结合的方式同步数据。同时,支持对同步任务进行周期性调度配置。

  • 配置操作简单。

    您无需进行创建同步任务、创建数据库、创建表、创建相互依赖以及执行参数对齐等复杂操作,通过简单的产品配置向导,即可完成对应功能的配置。

  • 成本较低,自动化运维管理效率较高。

使用限制

  • 目前仅支持整库离线同步MySQL类型的数据库至ElasticSearch。
  • 整库离线同步解决方案仅支持使用独享数据集成资源组。

创建整库离线同步任务

  1. 登录并进入数据集成页面,单击同步解决方案 > 任务列表,进入同步解决方案页面。
    操作详情可参见进入同步解决方案
  2. 解决方案任务列表页面,单击右上方的新建任务
  3. 新建同步解决方案对话框中,单击整库离线同步至ElasticSearch
  4. 完成方案名称等基本信息配置。
    基本配置区域,配置各项参数。基本配置
    参数 描述
    方案名称 同步解决方案的名称,最多支持50个字符。
    描述 对当前方案进行简单描述,最多支持50个字符。
    目标任务存放位置 默认创建一个新的业务流程,所有任务均以clone_database_源端数据源名称+to+目标数据源名称的命名方式存放至数据集成目录下。

    您也可以取消自动建立工作流程,在选择位置下拉列表中指定存放目标任务的路径。

  5. 选择来源数据源并配置同步规则。
    1. 数据来源区域,选择类型数据源
      说明 仅支持选择MySQL类型的数据源。
    2. 选择同步的源表区域,选中需要同步的源表,单击图标图标,将其移动至已选源表
      选择来源数据源表
      该区域会为您展示所选数据源下所有的表,您可以选择同步目标数据源的部分或全部表。
      注意 如果选中的表没有主键,则在创建源表和目标ElasticSearch索引的映射关系时,需要为该表自定义主键(例如,使用非主键的一个或几个字段的联合代替主键)进行同步数据时去重,详情请参见选择目标数据源并配置目标索引
    3. 设置同步规则区域,单击添加规则,选择相应的规则进行添加。
      同步规则包括源表名和目标索引名转换规则目标索引名规则
      • 源表名和目标索引名转换规则:转换源表名为目标索引名,进行字符串替换。
      • 目标索引名规则:支持对转换后的索引名添加前缀和后缀。
    4. 单击下一步
  6. 选择目标数据源并配置目标索引。
    1. 设置目标索引页签,选择目标ElasticSearch数据源
    2. 单击刷新源表和ElasticSearch索引映射,创建需要同步的源表和目标ElasticSearch索引的映射关系。
    3. 查看任务的执行进度和表来源。
      进度
      序号 描述
      显示映射关系的创建进度。
      说明 如果同步的表数量较多,会导致执行进度较慢,请耐心等待。
      • 如果来源库有主键,则同步数据时会直接使用该主键进行去重。
      • 如果来源库没有主键,则您需要单击编辑图标,自定义主键,即使用其他非主键的一个或几个字段的联合,代替主键进行同步数据时进行去重判断。
      说明 使用如下方式进行数据同步的表,必须设置主键:
      • 使用增量同步方式同步数据。
      • 使用全量同步方式同步数据,并且写入ElasticSearch策略配置为更新
      同步方式详情请参见选择同步方案
      选择的索引建立方式,取值如下:
      • 索引建立方式选择自动建索引时,ElasticSearch索引名列显示自动创建的ElasticSearch索引名称。您可以单击索引名称,修改建立索引的相关配置。
      • 索引建立方式选择使用已有索引时,请在ElasticSearch索引名列对应的下拉列表中,选择需要使用的索引。同时您可以单击设置同步规则,查看源表字段与目标索引的映射情况。
    4. 单击下一步
  7. 同步规则设置。
    1. 同步规则设置页签,进行同步方案选择同步规则设置
      同步方案描述如下表所示。
      同步方案 描述
      只全量一次性同步 只执行一次同步操作,将来源数据源的所有数据,全量同步至ElasticSearch中。
      只增量一次性同步 只执行一次同步操作,按照指定的过滤条件,将来源数据源的增量数据同步至ElasticSearch中。
      周期性全量同步 按照配置的周期任务,每次执行任务时都将来源数据源的所有数据,全量同步至ElasticSearch中。
      周期性增量同步 按照指定的过滤条件和周期任务,每次执行任务时仅将增量数据同步至ElasticSearch中。
      全量一次性同步后周期增量 先将来源数据源的所有数据全量同步至ElasticSearch,再按照指定的过滤条件和周期任务,后续每次执行任务时仅将增量数据同步至ElasticSearch中。
    2. 配置同步方案参数。
      选择同步方案后,不同同步方案需配置不同的同步参数,包括全量同步参数、增量同步参数及周期设置参数。具体如下:
      • 全量同步
        仅当方案选择配置为只全量一次性同步周期性全量同步全量一次性同步后周期增量时,需要配置该参数。
        参数 描述
        写入前清空对应的原有index(索引)
        取值如下:
        • :写入数据前会清空索引中原有的数据。
        • :写入数据前不会清空索引中原有的数据。
        注意 配置该参数为时,则会在写入数据前删除目标索引中所有的数据,请谨慎选择。
        写入ElasticSearch策略
        取值如下:
        • 插入:为默认值,同步数据时直接向目标索引中插入数据。
        • 更新:同步数据时,如果有相同的主键,则更新主键数据;如果没有相同的主键,则直接插入数据。

          更新数据时,是先将原有的一行数据全部删除后再重新插入。

        每批次写入的条数

        每次批量写入ElasticSearch的数据条数,即攒够一定条数的数据后,一次性写入ElasticSearch。默认为1000。您可以根据实际网络情况及数据量大小进行合理配置,减少不必要的网络开销。

      • 增量同步
        仅当方案选择配置为只增量一次性同步周期性增量同步全量一次性同步后周期增量时,需要配置该参数。
        参数 描述
        写入ElasticSearch策略
        取值如下:
        • 插入:为默认值,同步数据时直接向目标索引中插入数据。
        • 更新:同步数据时,如果有相同的主键,则更新主键数据;如果没有相同的主键,则直接插入数据。

          更新数据时,是先将原有的一行数据全部删除后再重新插入。

        每批次写入的条数

        每次批量写入ElasticSearch的数据条数,即攒够一定条数的数据后,一次性写入ElasticSearch。默认为1000。您可以根据实际网络情况及数据量大小进行合理配置,减少不必要的网络开销。

        增量条件 对来源数据源进行增量内容同步的过滤条件。您可以参考调度参数进行配置。
      • 周期设置
        参数 描述
        调度周期 包括分钟小时,详细的配置说明请参考调度周期
        生效日期 调度任务将在配置的有效日期内生效并自动调度,在有效期外任务将不会自动调度。
        暂停调度 暂停调度后,目标任务在配置的周期内不会执行。通常用于某个任务暂时不用执行,但后面还会继续使用的场景。
        重跑属性 取值如下:
        • 运行成功或失败后皆可重跑如果节点任务多次重跑不会影响结果,则可以选择该选项。
        • 运行成功或失败后皆不可重跑如果节点任务无论运行成功或失败,重跑都会影响结果,则可以选择该选项。

          当选择该选项时,如果系统出现故障,则在故障恢复后系统也不会自动重跑节点任务。

    3. 单击下一步
  8. 运行资源设置。
    运行资源设置页签,配置各项参数。运行资源设置
    • 全量同步
      仅当同步规则设置页签的方案选择配置为只全量一次性同步周期性全量同步全量一次性同步后周期增量时,需要配置该参数。
      参数 描述
      离线任务同步规则 全量同步时的离线任务名称。创建解决方案后,会生成一个离线任务用于读取全量数据。
      全量离线任务资源组
      目前解决方案仅支持使用独享数据集成资源组,此处可配置为准备操作中已购买并配置的独享数据集成资源组,详情请参见资源规划与配置
      说明 如果您没有购买独享资源组,可单击+新建独享资源组,创建新的独享资源组。
    • 增量同步
      仅当同步规则设置页签的方案选择配置为只增量一次性同步周期性增量同步全量一次性同步后周期增量时,需要配置该参数。
      参数 描述
      增量任务名称规则 增量同步时的离线任务名称。创建解决方案后,会生成一个离线任务用于读取增量数据。
      增量离线任务资源组
      目前解决方案仅支持使用独享数据集成资源组,此处可配置为准备操作中已购买并配置的独享数据集成资源组,详情请参见资源规划与配置
      说明 如果您没有购买独享资源组,可单击+新建独享资源组,创建新的独享资源组。
    • 调度设置
      参数 描述
      选择调度资源组

      选择运行任务时使用的调度资源组。

      目前解决方案仅支持使用独享数据集成资源组,此处可配置为准备操作中已购买并配置的独享数据集成资源组,详情请参见资源规划与配置
      说明 如果您没有购买独享资源组,可单击+新建独享资源组,创建新的独享资源组。
      来源端读取支持最大连接数 读取端的最大连接数,即来源端数据库的JDBC连接数。请根据数据库资源的实际情况合理配置。默认为15
  9. 单击完成配置,完成整库离线同步任务的创建。

执行整库离线同步任务

解决方案任务列表页面,单击相应任务后的提交执行,运行创建的整库离线同步任务。

查看任务运行状态及结果

  • 解决方案任务列表页面,选择已运行任务后的更多 > 执行详情,查看当前解决方案整库离线同步任务过程中,各子任务节点的运行详情。任务状态
  • 单击子任务节点后的执行详情,可以单击对话框中的任务链接,进入子节点的数据开发页面。

管理整库离线同步任务

  • 查看或编辑任务。
    解决方案任务列表页面,单击相应任务后的更多 > 执行详情,查看或编辑任务。
    说明 仅单击未运行状态后的更多 > 执行详情,您可以编辑任务。其它状态下的任务配置页面,仅支持查看。
  • 修改任务优先级。
    单击相应任务后的更多 > 修改优先级。在修改优先级对话框中,输入需要配置的优先级数值,单击确定。优先级取值范围为1~8,数值越大优先级越高。
    说明 优先级相同的任务,按照提交时间的先后顺序执行。
  • 删除任务。
    单击相应任务后的更多 > 删除。在删除对话框中,单击确认
    说明 仅删除当前任务的配置记录,已经生成的表和任务不受影响。