数据同步至Hologres

DataWorks的数据同步节点支持将MaxCompute中的单表数据同步到Hologres,帮助您更高效地进行大数据分析和实时查询。本文将详细介绍配置流程,让您轻松迁移数据并充分利用Hologres的高性能查询能力。

背景信息

在使用此功能将MaxCompute的内部表数据同步到Hologres的内部表时,数据首先会被导入至Hologres的外部表中,随后再从该外部表同步至Hologres的内部表。其中,MaxCompute的数据向Hologres外部表的同步过程是通过执行IMPORT FOREIGN SCHEMA命令实现的。

前提条件

使用限制

MaxCompute的源头表存在时,您才可以新建外部表并读取外部表数据。

新建同步节点

在配置数据同步节点前,您可以新建数据同步至Hologres节点,并进入其编辑页面。

管理目标数据源

在数据同步至Hologres节点编辑页面后,您可以通过以下操作对目标数据源进行管理。

  1. 在节点编辑页面数据源旁边的下拉框中,选择您所绑定的目标Hologres数据源。

  2. 单击旁边的目标管理,在弹出的窗口中选择所需的操作:

    • Holo管控台(实例监控):方便您在Hologres管理控制台管理目标Hologres实例。

    • Query:方便您通过可视化的方式查看并分析目标Hologres实例历史慢查询。

    • 活跃连接管理:方便您对目标Hologres实例中的连接进行诊断和管理。

    • DB授权:方便您为目标Hologres实例新增数据库或为数据库进行授权。

    • 用户管理:通过Hologres管理控制台的用户管理模块,您可以为目标Hologres实例新增或删除用户,并进行权限授权。

配置同步节点

选择好目标数据源后,您可以按照以下步骤在节点编辑页面完成同步节点任务的配置。

选择MaxCompute源表

在选择和配置MaxCompute源表时,您可根据以下参数说明选择所需的源表进行同步。

参数

配置说明

源端对象类型

默认为MaxCompute Table

项目

选择您所需同步的MaxCompute项目。

Schema

选择您所使用的Schema名称。

表名

选择您所需同步的表名称。

过滤条件

系统会根据您使用的分区表自动生成过滤条件,您也可以根据实际需求进行调整。满足过滤条件的数据将被保留。

说明

过滤条件即SQL语句中WHERE后面的语句内容。

设置Hologres目标表

在设置Hologres目标表时,您可以根据以下参数说明信息,配置所需同步的目标表信息。

参数

配置说明

实例

系统会根据您在管理目标数据源中选择的数据源,自动匹配到具体的实例信息。

数据库

系统会根据您在管理目标数据源中选择的数据源,自动匹配到具体的数据库信息。

Schema

指定Hologres内部表所属的Schema。

表名

自定义Hologres内部表名称。创建内部表时,若表名称已存在,不同类型的表处理策略如下:

  • 新建表为非分区表:删除已存在的内部表及其数据,Hologres会创建新表。

  • 新建表为分区表:不会删除已有表及其数据,Hologres根据分区值新建分区子表并导入数据。

说明

若新建的表与原有表的结构不同,则会报错。

字段

同步字段

您可以在此勾选需要同步的字段信息,并设置Hologres目标表字段的数据类型。

分区配置

您可以在此选择新建表的分区字段信息。

索引配置

您可以在此为存放MaxCompute数据的Hologres内部表构建索引,以便后续快速查询数据。创建索引的详细信息CREATE TABLE

  • 存储模式:Hologres支持三种表存储格式行存、列存和行列共存,您可根据表的使用场景设置表的存储格式。

  • 生命周期(秒):从数据第一次写入的时间开始计算,当到达生命周期后,表数据会在某一段时间内被清除(没有固定时间段)。默认生命周期为永久

  • Binlog:设置表是否开启Binlog,详情请参见订阅Hologres Binlog

  • Binlog生命周期:默认生命周期为永久

  • 设置字段属性:您可以在此搜索对应的字段信息,并为字段设置相关属性。

设置高级参数

在进行数据同步时,您可以在高级设置中配置GUC参数和外部服务器。

参数

配置说明

GUC参数

在导入MaxCompute数据前,需要设置一些GUC参数。支持的GUC参数请参见GUC参数。其余SQL均不支持。

外部服务器

默认odps_server

调试同步节点

如需调试执行同步节点任务,请根据您的业务需求配置相应的调试信息。

  1. 配置调试节点属性。

    您可在同步节点编辑页面右侧调试配置中配置计算资源资源组信息,具体参数信息如下。

    参数名称

    描述

    计算资源

    选择您所绑定的Hologres计算资源。

    资源组

    选择您绑定Hologres计算资源时已通过测试连通性的资源组。

    计算 CU

    设置您执行任务所需的计算CU,默认值为0.25

    参数

    在配置过滤条件中通过${参数名}的方式定义变量时,需要在脚本参数处配置参数名参数值信息,任务运行时会将它动态替换为真实的取值。详情请参见节点调度

  2. 调试运行节点任务时,您可单击保存运行同步任务。

后续步骤

  • 节点调度:若项目目录下的节点需要周期性调度执行,您需要在节点右侧的调度配置中设置调度策略,配置相关的调度属性。

  • 节点发布:若任务需要发布至生产环境执行,请单击界面image图标唤起发布流程,通过该流程将任务发布至生产环境。项目目录下的节点只有在发布至生产环境后,才会进行周期性调度。

常见问题

  • 字段类型不匹配:如果您在配置过程中遇到字段数据类型不匹配的问题,会导致同步任务执行失败,请仔细检查Hologres表的字段类型配置是否准确。

  • 同步单一分区数据与实际数据不一致:请检查您在源端配置的过滤条件是否正确。