DataWorks提供了一键MaxCompute数据同步节点功能,帮助您快速完成从MaxCompute到Hologres数据库的数据同步,可以实现对MaxCompute表数据的高效查询。本文将详细介绍如何使用一键MaxCompute数据同步节点。
背景信息
您可以通过SQL语句直接将MaxCompute数据导入Hologres库,这种方式通常具有更好的性能。详情请参见使用SQL从MaxCompute导入。
前提条件
操作步骤
在一键MaxCompute数据同步节点编辑页面,执行如下开发操作。
配置节点信息
您可在节点编辑页面配置节点信息,具体参数信息如下所示。
参数
描述
参数
描述
目标连接
Hologres外部表所在的Hologres实例。
您可在后方的目标管理中查看跳转到Holo管控台(实例监控)、慢Query、活跃连接管理、DB授权及用户管理页面。
目标库
Hologres外部表存放于Hologres实例下那个数据库。
外部表来源
配置Hologres外部表的来源方式。后续使用该表作为同步MaxCompute数据至Hologres内部表的链接,用于将MaxCompute数据同步到Hologres内部表中,映射MaxCompute源表数据。
已有外部表:若需要同步数据至内部表的外部表已存在,可选择此方式。该方式需要选择已创建的外部表所在的Schema及名称。
新建外部表:您需要先在Hologres中创建一个外部表。外部表的结构应与MaxCompute源表的结构相同。详情请参见一键MaxCompute表结构同步节点。
该方式需要配置新建外部表使用的服务器,以及MaxCompute项目名称和表名称。您可以直接调用Hologres底层已创建的
odps_server
外部表服务器。详细原理请参见postgres_fdw。
外部服务器
默认
odps_server
。MaxCompute项目
您所创建的MaxCompute项目名称。
MaxCompute表名
MaxCompute中的源表名称。
目标Schema
Hologres内部表所属的
Schema
。目标表名
Hologres内部表名称。当创建内部表时,若表名称已存在,不同类型的表处理策略如下:
非分区表:删除已存在的内部表及其数据,Hologres会创建新表。
分区表:不会删除已有表及其数据,Hologres根据分区值新建分区子表并导入数据。
若新建的表与原有表的结构不同,则会报错。
目标表描述
Hologres内部表的描述信息。
GUC参数
导入MaxCompute数据前需要设置的GUC参数,支持的GUC参数请参见GUC参数。其余SQL均不支持。
同步字段
选择需要同步的MaxCompute表字段。
分区配置
选择需要同步的MaxCompute表分区。
Hologres当前仅支持同步一级分区。MaxCompute表的多级分区,将被设置为Hologres中的一级分区,多余的分区自动映射为Hologres的普通字段。
索引配置
为存放MaxCompute数据的Hologres内部表构建索引,后续您可根据索引快速查询数据。创建索引,详情请参见CREATE TABLE。
SQL Script
生成的SQL Script无法编辑。同步任务配置更新时,刷新SQL Script,即可生成新的SQL语句。
DataWorks将根据同步配置,自动解析出运行当前同步任务的SQL语句。您可使用该语句进入Hologres的代码编辑页面,以SQL方式执行同步任务。
使用SQL方式执行同步任务,详情请参见使用SQL从MaxCompute导入。
执行SQL任务
在调试配置的计算资源中,选择配置计算资源和DataWorks资源组。
您还可以根据任务执行所需的资源情况来调度 CU。默认CU为
0.25
。访问公共网络或VPC网络环境的数据源需要使用与数据源测试连通性成功的调度资源组。详情请参见网络连通方案。
在工具栏中选择保存SQL任务,然后单击运行SQL任务。
如需定期执行节点任务,请根据业务需求配置调度信息。配置详情请参见调度配置。
节点任务配置完成后,需对节点进行发布。详情请参见节点发布。
任务发布后,您可以在运维中心查看周期任务的运行情况。详情请参见运维中心入门。
后续步骤
MaxCompute数据同步完成后,您可使用HoloWeb查询Hologres表中的数据,详情请参见HoloWeb。
- 本页导读 (1)
- 背景信息
- 前提条件
- 操作步骤
- 后续步骤