本文为您介绍数据湖构建中数据表的基本操作。
如果已经在其他平台上(如EMR、Flink等)关联了Catalog,也可在这些平台上创建数据库和表,元数据将会直接写入DLF中。详情请参见大数据&AI产品集成。
Paimon Catalog支持引擎创建外表和视图。
通过外表管理功能,可以读取外部数据源。在创建外表时,可以指定表Location为您自己的OSS Bucket。
通过视图管理功能,可以降低查询的复杂度。支持视图相关的SQL命令。
新建数据表
登录数据湖构建控制台。
在Catalog列表页面,单击Catalog名称,进入Catalog详情页。
在数据库页签中,单击数据库名称,单击新建数据表。
根据Catalog类型,配置以下信息,单击确定。
Paimon类型
配置项
说明
数据表名称
必填,数据库下不可重名。
数据表描述
可选,输入描述信息。
普通列
定义表中的非分区字段,用于存储特定的数据信息。
分区列
定义表中的分区字段,用于对表中的数据进行物理分割,使得相同或者相近值的数据被存储在一起,从而提高大规模数据集上的查询效率。
表自定义属性
可添加自定义属性,在表创建过程中会覆盖DLF元数据服务对应的默认参数,适用的配置项详见Paimon官方文档。
Hive类型
配置项
说明
数据表名称
必填,数据库下不可重名。
数据表描述
可选,输入描述信息。
数据存储位置
选择数据表中数据存储的位置,也可使用默认路径(继承Database存储路径)。
重要请选择已在DLF纳管的Bucket,未纳管的Bucket无法使用。具体操作,请参见纳管Buckets。
数据格式
选择数据表的数据格式,支持Avro、CSV、JSON、Parquet、ORC格式。
分割符
可选,当数据格式选择CSV时,选择数据表的分隔符。
普通列
定义表中的非分区字段,用于存储特定的数据信息。
分区列
定义表中的分区字段,用于对表中的数据进行物理分割,使得相同或者相近值的数据被存储在一起,从而提高大规模数据集上的查询效率。
查看数据表
删除数据表
表被删除后,系统默认将表内数据保留3天,以降低误删除风险。超过3天后,数据将被彻底删除。
在数据库列表中,单击数据库名称,进入资源列表页。
在表列表中,单击操作列的删除。
在弹出的提示框中,单击确定,完成数据表删除。