数据同步至MaxCompute

DataWorks的数据同步至MaxCompute节点支持将Hologres中的单表数据迁移到MaxCompute,帮助您高效存储大数据。本文将详细介绍配置流程,让您轻松迁移数据并充分利用MaxCompute的高性能处理能力。

前提条件

使用限制

配置同步节点

进入数据同步至MaxCompute节点编辑页面,您可以按照以下步骤在节点编辑页面完成节点的配置。

选择Hologres源端

在选择和配置Hologres源表时,您可根据以下参数说明选择所需的源表进行同步。

参数

配置说明

源端对象类型

默认为Hologres Table

数据源

选择您所需同步的Hologres计算资源。

实例

Hologres实例ID,系统会自动获取。

Database

选择您所需同步的Hologres数据库。

Schema

选择您所需同步的Schema。

Table

选择您所需同步的表名称。

过滤条件

系统会根据您使用的分区表自动生成过滤条件,您也可以根据实际需求进行调整。满足过滤条件的数据将被保留。

说明

过滤条件即SQL语句中WHERE后面的语句内容。

设置MaxCompute目标源

在设置MaxCompute目标表时,您可以根据以下参数说明信息,配置所需同步的目标表信息。

参数

配置说明

数据源

选择您所需同步的目标MaxCompute计算资源。

Project

数据源对应的MaxCompute项目,系统自动获取。

Schema

选择您想要存储的Schema。开启了三层模型MaxCompute项目需要配置该参数,没有开启三层模型的项目不存在该配置参数。

Table

自定义MaxCompute内部表名称。

生命周期

设置表的生命周期。从最后一次更新时间算起,如果表数据在指定时间内没有变动,MaxCompute将自动回收该表。

字段

同步字段

您可以在此勾选需要同步的字段信息,并设置MaxCompute目标表字段的数据类型。

分区配置

您可以在此自定义MaxCompute内部表的分区列。分区数据来源可以通过以下两种方式获取:

  • 指定的Holo字段选择Hologres表中的特定字段作为分区列数据来源。

  • 配置调度变量:使用调度任务中的变量来定义分区列。

设置数据同步方式

在进行数据同步时,您可以在数据同步设置中配置数据导入方式和访问Hologres实例的权限信息。以下是详细的参数配置说明:

参数

配置说明

导入方式

您可以选择以下两种方式之一来导入数据:

  • 覆盖写入:当您需要删除原有数据,将新数据写入到目标表时,可以选择覆盖写入的方式。

  • 追加写入:当您需要保留原有数据,将新数据追加到目标表时,可以选择追加写入的方式。

访问Hologres权限

您可以根据实际情况选择以下方式访问Hologres实例:

  • 双签名访问方式:通过当前身份进行Hologres权限校验。

    您需确保在MaxCompute项目下,拥有MaxCompute表读取权限的同时,也需要有该MaxCompute表对应的Hologres源表权限。MaxCompute侧权限控制参见:湖仓一体2.0使用指南、Hologres侧权限控制参见:权限管理概述

  • RamRole访问方式:通过指定RAM角色进行访问身份校验。

    RAM角色授权AliyunSTSAssumeRoleAccess权限策略。详情请参见RAM角色授权模式。授权完成后,在RamRole中配置您所指定的RAM角色。

Location

在同步过程中,系统会基于Hologres外部存储路径自动生成一个MaxCompute表。您可以选择使用系统生成的默认存储路径,或者自定义Hologres外部存储路径。

调试同步节点

如需调试执行同步节点任务,请根据您的业务需求配置相应的调试信息。

  1. 配置调试节点属性。

    您可在同步节点编辑页面右侧调试配置中配置计算资源资源组信息,具体参数信息如下。

    参数名称

    描述

    计算资源

    选择您所绑定的MaxCompute计算资源。

    计算配额

    选择您在创建MaxCompute项目时生成的计算配额,或单击下拉框最下方的新建计算配额,进行新建。详情请参见计算资源-Quota管理

    资源组

    选择您绑定MaxCompute计算资源时已通过测试连通性的资源组。

    计算 CU

    当前节点使用默认CU值,无需修改。

    参数

    在配置过滤条件中通过${参数名}的方式定义变量时,需要在脚本参数处配置参数名参数值信息,任务运行时会将它动态替换为真实的取值。详情请参见节点调度

  2. 调试运行节点任务时,您可单击保存运行同步任务。

后续步骤

  • 节点调度:若项目目录下的节点需要周期性调度执行,您需要在节点右侧的调度配置中设置调度策略,配置相关的调度属性。

  • 节点发布:若任务需要发布至生产环境执行,请单击界面image图标唤起发布流程,通过该流程将任务发布至生产环境。项目目录下的节点只有在发布至生产环境后,才会进行周期性调度。

常见问题

  • 字段类型不匹配:如果您在配置过程中遇到字段数据类型不匹配的问题,会导致同步任务执行失败,请仔细检查MaxCompute表的字段类型配置是否准确。

  • 同步单一分区数据与实际数据不一致:请检查您在源端配置的过滤条件是否正确。