DataWorks的数据同步至MaxCompute节点支持将Hologres中的单表数据迁移到MaxCompute,帮助您高效存储大数据。本文将详细介绍配置流程,让您轻松迁移数据并充分利用MaxCompute的高性能处理能力。
前提条件
将MaxCompute项目和Hologres实例绑定为DataWorks计算资源,并完成连通性测试。
使用限制
仅支持将Hologres内部数据库的数据同步至MaxCompute。
MaxCompute上Hologres外部表的使用限制,请参见Hologres外部表。
MaxCompute和Hologres之间的数据类型映射存在差异,Hologres部分数据类型不支持同步至MaxCompute。
配置同步节点
进入数据同步至MaxCompute节点编辑页面,您可以按照以下步骤在节点编辑页面完成节点的配置。
选择Hologres源端
在选择和配置Hologres源表时,您可根据以下参数说明选择所需的源表进行同步。
参数 | 配置说明 |
源端对象类型 | 默认为 |
数据源 | 选择您所需同步的Hologres计算资源。 |
实例 | Hologres实例ID,系统会自动获取。 |
Database | 选择您所需同步的Hologres数据库。 |
Schema | 选择您所需同步的Schema。 |
Table | 选择您所需同步的表名称。 |
过滤条件 | 系统会根据您使用的分区表自动生成过滤条件,您也可以根据实际需求进行调整。满足过滤条件的数据将被保留。 说明 过滤条件即SQL语句中 |
设置MaxCompute目标源
在设置MaxCompute目标表时,您可以根据以下参数说明信息,配置所需同步的目标表信息。
参数 | 配置说明 | |
数据源 | 选择您所需同步的目标MaxCompute计算资源。 | |
Project | 数据源对应的MaxCompute项目,系统自动获取。 | |
Schema | 选择您想要存储的Schema。开启了三层模型的MaxCompute项目需要配置该参数,没有开启三层模型的项目不存在该配置参数。 | |
Table | 自定义MaxCompute内部表名称。 | |
生命周期 | 设置表的生命周期。从最后一次更新时间算起,如果表数据在指定时间内没有变动,MaxCompute将自动回收该表。 | |
字段 | 同步字段 | 您可以在此勾选需要同步的字段信息,并设置MaxCompute目标表字段的数据类型。 |
分区配置 | 您可以在此自定义MaxCompute内部表的分区列。分区数据来源可以通过以下两种方式获取:
|
设置数据同步方式
在进行数据同步时,您可以在数据同步设置中配置数据导入方式和访问Hologres实例的权限信息。以下是详细的参数配置说明:
参数 | 配置说明 |
导入方式 | 您可以选择以下两种方式之一来导入数据:
|
访问Hologres权限 | 您可以根据实际情况选择以下方式访问Hologres实例:
|
Location | 在同步过程中,系统会基于Hologres外部存储路径自动生成一个MaxCompute表。您可以选择使用系统生成的默认存储路径,或者自定义Hologres外部存储路径。 |
调试同步节点
如需调试执行同步节点任务,请根据您的业务需求配置相应的调试信息。
配置调试节点属性。
您可在同步节点编辑页面右侧调试配置中配置计算资源及资源组信息,具体参数信息如下。
参数名称
描述
计算资源
选择您所绑定的MaxCompute计算资源。
计算配额
选择您在创建MaxCompute项目时生成的计算配额,或单击下拉框最下方的新建计算配额,进行新建。详情请参见计算资源-Quota管理。
资源组
选择您绑定MaxCompute计算资源时已通过测试连通性的资源组。
计算 CU
当前节点使用默认CU值,无需修改。
参数
在配置过滤条件中通过${参数名}的方式定义变量时,需要在脚本参数处配置参数名、参数值信息,任务运行时会将它动态替换为真实的取值。详情请参见节点调度。
调试运行节点任务时,您可单击保存并运行同步任务。
后续步骤
常见问题
字段类型不匹配:如果您在配置过程中遇到字段数据类型不匹配的问题,会导致同步任务执行失败,请仔细检查MaxCompute表的字段类型配置是否准确。
同步单一分区数据与实际数据不一致:请检查您在源端配置的过滤条件是否正确。