本文为您介绍如何通过DataWorks数据集成将Kafka数据实时同步至Hologres。

前提条件

  • 开通Hologres,并连接Holoweb,详情请参见HoloWeb快速入门
  • 开通Dataworks,详情请参见入门概述
  • 准备好Kafka 环境以及数据,详情请参见概述

背景信息

Kafka 是一款高吞吐量、高可扩展性的分布式消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等场景。Hologres与大数据生态无缝打通,与大数据智能研发平台DataWorks深度融合,您可以通过DataWorks数据集成将Kafka数据实时同步至Hologres,再进行高并发低延时的查询分析处理。相关原理请参见Kafka ReaderHologres Writer

单表实时同步

DataWorks数据集成通过Kafka服务的Java SDK从Kafka读取数据,再实时同步至Hologres。

  1. 配置数据源
    在同步数据之前需要先配置输入数据源Kafka和输出数据源Hologres,详情请参见:
  2. 配置同步任务
    配置数据源成功之后,可以配置同步任务将Kafka的数据实时同步至Hologres,详情请参见:
  3. 查询数据
    任务同步成功之后,可以在Hologres中查询到已同步的数据。

Kafka通过Flink实时同步

Kafka也可以通过Flink初步清洗汇总指标再实时同步至Hologres,详情请参见Hologres结果表