数据同步至MaxCompute,Hologres数据同步至MaxCompute-大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心

前提条件

进入数据同步至MaxCompute节点编辑页面，您可以按照以下步骤在节点编辑页面完成节点的配置。

在选择和配置Hologres源表时，您可根据以下参数说明选择所需的源表进行同步。

参数	配置说明
源端对象类型	默认为`Hologres Table`。
数据源	选择您所需同步的Hologres计算资源。
实例	Hologres实例ID，系统会自动获取。
Database	选择您所需同步的Hologres数据库。
Schema	选择您所需同步的Schema。
Table	选择您所需同步的表名称。
过滤条件	系统会根据您使用的分区表自动生成过滤条件，您也可以根据实际需求进行调整。满足过滤条件的数据将被保留。说明过滤条件即SQL语句中`WHERE`后面的语句内容。

在设置MaxCompute目标表时，您可以根据以下参数说明信息，配置所需同步的目标表信息。

参数		配置说明
数据源		选择您所需同步的目标MaxCompute计算资源。
Project		数据源对应的MaxCompute项目，系统自动获取。
Schema		选择您想要存储的Schema。开启了三层模型的MaxCompute项目需要配置该参数，没有开启三层模型的项目不存在该配置参数。
Table		自定义MaxCompute内部表名称。
生命周期		设置表的生命周期。从最后一次更新时间算起，如果表数据在指定时间内没有变动，MaxCompute将自动回收该表。
字段	同步字段	您可以在此勾选需要同步的字段信息，并设置MaxCompute目标表字段的数据类型。
	分区配置	您可以在此自定义MaxCompute内部表的分区列。分区数据来源可以通过以下两种方式获取：指定的holo 字段：选择Hologres表中的特定字段作为分区列数据来源。配置调度变量：使用调度任务中的变量来定义分区列。

在进行数据同步时，您可以在数据同步设置中配置数据导入方式和访问Hologres实例的权限信息。以下是详细的参数配置说明：

参数	配置说明
导入方式	您可以选择以下两种方式之一来导入数据：覆盖写入：当您需要删除原有数据，将新数据写入到目标表时，可以选择覆盖写入的方式。追加写入：当您需要保留原有数据，将新数据追加到目标表时，可以选择追加写入的方式。
访问 Hologres 权限	您可以根据实际情况选择以下方式访问Hologres实例：双签名访问方式：通过当前身份进行Hologres权限校验。您需确保在MaxCompute项目下，拥有MaxCompute表读取权限的同时，也需要有该MaxCompute表对应的Hologres源表权限。MaxCompute侧权限控制参见：湖仓一体2.0使用指南、Hologres侧权限控制参见：权限管理概述。 RamRole访问方式：通过指定RAM角色进行访问身份校验。为RAM角色授权AliyunSTSAssumeRoleAccess权限策略。详情请参见RAM角色授权模式。授权完成后，在RAM Role中配置您所指定的RAM角色。
Location	在同步过程中，系统会基于Hologres外部存储路径自动生成一个MaxCompute表。您可以选择使用系统生成的默认存储路径，或者自定义Hologres外部存储路径。

如需调试执行同步节点任务，请根据您的业务需求配置相应的调试信息。

配置调试节点属性。

您可在同步节点编辑页面右侧运行配置中配置计算资源及资源组信息，具体参数信息如下。

参数名称	描述
计算资源	选择您所绑定的MaxCompute计算资源。
计算配额	选择您在创建MaxCompute项目时生成的计算配额，或单击下拉框最下方的新建计算配额，进行新建。详情请参见计算资源-Quota管理。
资源组	选择您绑定MaxCompute计算资源时已通过测试连通性的资源组。
调度 CU	当前节点使用默认CU值，无需修改。
参数	在配置过滤条件中通过${参数名}的方式定义变量时，需要在脚本参数处配置参数名、参数值信息，任务运行时会将它动态替换为真实的取值。详情请参见节点调度配置。

节点调度配置：若项目目录下的节点需要周期性调度执行，您需要在节点右侧的调度配置中设置调度策略，配置相关的调度属性。
节点发布：若任务需要发布至生产环境执行，请单击界面图标唤起发布流程，通过该流程将任务发布至生产环境。项目目录下的节点只有在发布至生产环境后，才会进行周期性调度。