数据表

本文为您介绍数据湖构建中数据表的基本操作。

说明

如果已经在其他平台上(如EMR、Flink等)关联了Catalog,也可在这些平台上创建数据库和表,元数据将会直接写入DLF中。详情请参见大数据&AI产品集成

新建数据表

  1. 登录数据湖构建控制台

  2. Catalog列表页面,单击Catalog名称,进入Catalog详情页。

  3. 数据库页签中,单击数据库名称,单击新建数据表

  4. 根据Catalog类型,配置以下信息,单击确定

    Paimon类型

    配置项

    说明

    数据表名称

    必填,数据库下不可重名。

    数据表描述

    可选,输入描述信息。

    普通列

    定义表中的非分区字段,用于存储特定的数据信息。

    分区列

    定义表中的分区字段,用于对表中的数据进行物理分割,使得相同或者相近值的数据被存储在一起,从而提高大规模数据集上的查询效率。

    表自定义属性

    可添加自定义属性,在表创建过程中会覆盖DLF元数据服务对应的默认参数,适用的配置项详见Paimon官方文档

    Hive类型

    配置项

    说明

    数据表名称

    必填,数据库下不可重名。

    数据表描述

    可选,输入描述信息。

    数据存储位置

    选择数据表中数据存储的位置,也可使用默认路径(继承Database存储路径)。

    重要

    请选择已在DLF纳管的Bucket,未纳管的Bucket无法使用。具体操作,请参见纳管Buckets

    数据格式

    选择数据表的数据格式,支持Avro、CSV、JSON、Parquet、ORC格式。

    分割符

    可选,当数据格式选择CSV时,选择数据表的分隔符。

    普通列

    定义表中的非分区字段,用于存储特定的数据信息。

    分区列

    定义表中的分区字段,用于对表中的数据进行物理分割,使得相同或者相近值的数据被存储在一起,从而提高大规模数据集上的查询效率。

查看数据表

  1. 数据库列表中,单击数据库名称,进入资源列表页。

  2. 资源列表中,单击表名称,可在字段列表中查看非分区字段和分区字段。

  3. 单击详细信息页签,可查看数据表详情。

    如数据表名称、表类型、所属数据库、表描述、最后一次更新时间、存储位置、当前版本、创建人、Owner、表格式等。

  4. 单击权限页签,可为用户或角色授予数据表相关权限。详情请参见授权管理

  5. 当Catalog类型为Paimon时,还可查看数据表的存储概览和存储优化。

    • 单击存储概览页签,可以查看数据表的数据概况和分区数据概览信息。

    • 单击存储优化页签,可查看数据表的存储优化策略、优化效果、最新执行历史等信息。详情请参见存储优化使用须知

删除数据表

重要

表被删除后,系统默认将表内数据保留3天,以降低误删除风险。超过3天后,数据将被彻底删除。

  1. 数据库列表中,单击数据库名称,进入资源列表页。

  2. 表列表中,单击操作列的删除

  3. 在弹出的提示框中,单击确定,完成数据表删除。