DataWorks提供了一键MaxCompute数据同步节点功能,帮助您快速完成从MaxCompute到Hologres数据库的数据同步,可以实现对MaxCompute表数据的高效查询。本文将详细介绍如何使用一键MaxCompute数据同步节点。
背景信息
您可以通过SQL语句直接将MaxCompute数据导入Hologres库,这种方式通常具有更好的性能。详情请参见使用SQL从MaxCompute导入。
前提条件
已开发创建项目目录,详情请参见项目目录。
将MaxCompute项目和Hologres实例绑定为DataWorks计算资源,并完成连通性测试。
创建一键MaxCompute数据同步节点
配置一键MaxCompute数据同步节点
进入一键MaxCompute数据同步节点编辑页面,对节点信息进行配置。
选择MaxCompute源表
根据所需同步的源表信息,配置相关参数。
参数 | 配置说明 |
项目 | 您所创建的MaxCompute项目名称。 |
Schema | 您所创建的MaxCompute项目Schema。 |
表名 | 所要同步的MaxCompute源表名称。 |
过滤条件 | 系统会根据您使用的分区表自动生成过滤条件,您也可以根据实际需求进行调整。满足过滤条件的数据将被保留。 说明 过滤条件即SQL语句中 |
设置Hologres目标表
根据需要同步至的目标表信息,配置相关参数。
参数 | 配置说明 |
实例 | 目标Hologres实例。您在上方选择数据源配置您所绑定的Hologres数据源,系统会根据您所选择的Hologres数据源,自动识别到具体的实例。 说明 您可在选择数据源后方的目标管理中查看跳转到Holo管控台(实例监控)、慢Query、活跃连接管理、DB授权及用户管理页面。 |
数据库 | 目标Hologres实例数据库。 |
Schema | 目标Hologres实例的 |
表名 | Hologres内部表名称。当创建内部表时,若表名称已存在,不同类型的表处理策略如下:
|
同步字段 | 勾选需要同步创建的表字段。 |
分区配置 | 选择需要同步的MaxCompute表分区。 说明 Hologres当前仅支持同步一级分区。MaxCompute表的多级分区,将被设置为Hologres中的一级分区,多余的分区自动映射为Hologres的普通字段。 |
索引配置 | 为存放MaxCompute数据的Hologres内部表构建索引,后续您可根据索引快速查询数据。创建索引,详情请参见CREATE TABLE。 |
配置更多参数
参数 | 配置说明 |
GUC参数 | 导入MaxCompute数据前需要设置的GUC参数,支持的GUC参数请参见GUC参数。其余SQL均不支持。 |
外部服务器 | 默认 |
SQL Script |
|
调试一键MaxCompute数据同步节点
如需调试执行同步节点任务,请根据您的业务需求配置相应的调试信息。
配置调试节点属性。
您可在同步节点编辑页面右侧调试配置中配置计算资源及资源组信息,具体参数信息如下。
参数名称
描述
计算资源
选择您所绑定的Hologres计算资源。
资源组
选择您绑定Hologres计算资源时已通过测试连通性的资源组。
计算 CU
当前节点使用默认CU值,无需修改。
脚本参数
在配置过滤条件中通过${参数名}的方式定义变量时,需要在脚本参数处配置参数名、参数值信息,任务运行时会将它动态替换为真实的取值。详情请参见节点调度。
调试运行节点任务时,您可单击保存并运行同步任务。
后续步骤
常见问题
报错信息:
get table columns occurs Invalid name:xxx
。解决方式:请检查您在源端配置的项目名称是否正确,可查看是否存在空格或其他字符。