本文为您介绍如何通过DataWorks数据集成实时同步数据库中的数据至Hologres。

前提条件

  • 开通DataWorks,详情请参见入门概述
  • 开通Hologres实例并绑定至DataWorks工作空间,详情请参见HoloStudio快速入门
  • 已开通云数据库。
说明 跨地域是否可以同步数据,详情请参见选择网络连通方案

背景信息

Hologres是实时交互式分析产品,与大数据生态无缝打通,深度集成智能研发平台DataWorks,支持高并发和低延时地查询分析数据。您可以通过DataWorks数据集成同步将数据库中的数据实时同步至Hologres,再进行高并发低延时的查询分析处理。

常见的支持实时数据同步的数据库包括:MySQL Binlog、Oracle、Polar DB、PolarDB MySQL等。
说明 如需查看更多支持的数据库,请参见实时同步支持的数据源

相关原理:MySQL ReaderOracle ReaderPolarDB ReaderSQL Server ReaderHologres Writer

操作流程

通过DataWorks数据集成将多种数据库数据稳定、高效的实时同步至Hologres,请参见以下操作步骤进行操作。

  1. 配置输入数据源
    在同步数据之前,需要配置数据来源的数据源。例如,您需要将MySQL数据实时同步至Hologres,就需要配置MySQL数据源。您可以根据业务场景选择数据源并配置,详情请参见配置数据源
  2. 配置输出Hologres数据源
    说明 Hologres数据源必须使用数据集成独享资源组。
    在同步之前,需要配置输出数据源Hologres,详情请参见配置Hologres数据源
  3. 配置任务
    输入数据源与输出Hologres数据源配置成功后,需要开始配置同步方式并运行任务,DataWorks数据集成提供三种实时同步方式,您可以根据业务需求选择,详情见下表。
    同步类型 适用场景 支持的数据来源 数据源配置指导 同步任务配置指导
    单表实时同步 适用于将源端部分表数据的变化实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。
    • MySQL Binlog
    • DataHub
    • LogHub
    • Kafka
    • PolarDB
    • SQL Server
    配置并管理实时同步任务
    整库实时同步 适用于将源端全部表的数据变化实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。
    • PolarDB MySQL
    • PolarDB
    • MySQL
    配置并管理实时同步任务
    同步解决方案 提供多种数据源之间进行不同数据同步场景的同步解决方案,包括实时数据同步、离线全量同步、离线增量同步等同步场景,助力企业数据更高效、更便捷的一键上云。主要包括:
    • 全量数据初始化。
    • 增量数据实时写入。
    • 增量数据和全量数据定时自动合并写入新的全量表分区。
    • PolarDB MySQL
    • Oracle
    • MySQL
    • PolarDB-X

操作示例

MySQL单表实时同步至Hologres:实时同步MySQL Binlog的数据至Hologres