本文为您介绍如何使用HoloWeb,通过可视化的方式快捷导入MaxCompute数据。
前提条件
存在已登录实例,请参见登录实例。
背景信息
HoloWeb支持一键同步MaxCompute数据功能,您可以使用可视化方式导入MaxCompute表数据并进行查询。该方式比创建外部表直接查询数据的性能更好。
操作步骤
在顶部菜单栏左侧,选择相应的地域。
单击前往HoloWeb,进入HoloWeb开发页面。
在HoloWeb开发页面的顶部菜单栏,选择 ,单击一键MaxCompute数据导入。
配置新建MaxCompute数据导入页面的各项参数。
参数描述如下表所示。
类别
参数
描述
选择实例
实例名
已登录的实例名称。
MaxCompute 源表
项目名
MaxCompute的项目名称。
Schema Name
MaxCompute的Schema名称,对于使用两层模型的MaxCompute项目,默认不展示;对于使用三层模型的MaxCompute项目,此处可下拉选择当前项目下有权限的所有Schema。
表名
MaxCompute的表名称,支持基于前缀模糊搜索。
Hologres 目标表
数据库名
选择内部表所在的Hologres数据库名称。
Schema Name
Hologres的Schema名称。
默认为public Schema,您也可以选择其他有权限的Schema。
表名
新建的Hologres内部表名称。
选择MaxCompute表后,将会自动填入MaxCompute表名称,您也可以手动重命名。
目标表描述
新建的Hologres内部表描述,可自定义修改。
参数设置
GUC参数
输入需要设定的GUC参数。GUC参数详情请参见GUC参数。
导入设置
字段
需要导入的MaxCompute表字段。
您可以选择导入部分或全部字段。
分区配置
分区字段
选择分区字段,Hologres将会默认将表创建为分区表。
Hologres仅支持一级分区。如果您需要导入MaxCompute的多级分区,则在Hologres中设置一级分区即可,其余分区自动映射为Hologres的普通字段。
业务日期
如果MaxCompute表使用日期进行分区,则您可以选择具体的分区日期,系统将会导入指定日期的数据至MaxCompute表。
索引配置
存储模式
列存,适用于各种复杂查询。
行存,适用于基于主键的点查询和Scan。
行列共存,支持行存和列存的所有场景,以及非主键点查的场景。
如果不指定存储模式,则默认为列存。
表数据生命周期
表数据的生命周期。默认为永久存储。
指定生命周期后,如果数据在指定时间内未被修改,则引擎将会在到期后的某一个时间段删除数据。
Binlog
是否开启Binlog,详情请参见订阅Hologres Binlog。
Binlog生命周期
Binlog的TTL,默认为30天,即默认值为2592000秒。
分布列
Hologres会按照分布列指定的列将数据shuffle到各个Shard,同样的数值会在同样的Shard中。以分布列做过滤条件时,可以大大提高执行效率。
分段列
您可以指定部分列作为分段键Segment_key。当查询条件包含分段列时,您可以通过分段键快速查找相应数据的存储位置。
聚簇列
您可以指定部分列作为聚簇索引Clustering_key。索引的类型和列的顺序密切相关。聚簇索引帮助您加速执行索引列的Range和Filter查询。
字典编码列
Hologres支持为指定列的值构建字典映射。字典编码可以将字符串的比较转换为数字的比较,加速Group By和Filter查询。
默认设置所有text列至字典编码列中。
位图列
Hologres支持在位图列构建比特编码。位图列可以根据设置的条件快速过滤字段内部的数据。
默认设置所有text列至位图列中。
SQL Script为您自动解析当前可视化操作对应的SQL语句。
单击右上角的提交。