数据目录

数据目录(Catalog)是数据湖构建(Data Lake Formation)的元数据顶层逻辑实体,采用层级化结构组织元数据资源。适用于不同业务或不同用户间的元数据隔离与权限管控,以及湖数据存储和湖表运维管理等场景。本文为您介绍数据目录(Catalog)的基本操作。

前提条件

  • 在使用DLF前,已完成阿里云账号角色授权,且已开通DLF服务。详情请参见授权并开通DLF

    说明

    授权和开通操作仅需在首次使用DLF时完成。

  • 若使用RAM用户管理Catalog,需满足以下权限要求:

    • 管控API层面:RAM用户需要具备AliyunDLFFullAccess权限,或被授予Catalog相关的具体鉴权Action,详情请参见DLF RAM鉴权Action说明

    • 数据层面:仅主账号,或被赋予super_administratoradmin角色,或被授予Catalog管理权限的RAM用户,才具备创建Catalog的权限。请参见配置数据权限

使用限制

每个账号在每个地域最多可创建10Paimon Catalog。如需创建更多Paimon Catalog,请提交工单申请。

新建数据目录

  1. 登录数据湖构建控制台

  2. Catalog列表页面,单击新建Catalog,配置以下信息。

    配置项

    说明

    Catalog类型

    Paimon:湖表存储格式为Paimon,新业务推荐使用。

    Catalog名称

    必选,唯一标识,不可重名。

    描述

    可选,输入描述信息。

    存储类型

    标准存储。

    存储冗余类型

    可选以下两种类型:

    • 本地冗余(默认):数据存储在单可用区(AZ)。当该可用区不可用时,会导致相关数据不可访问,推荐使用同城冗余。

    • 同城冗余:同一地域(Region)内多可用区(AZ)冗余机制,当某个可用区(AZ)不可用时,仍能保证数据可用性。

    说明
    • Catalog创建后,同城冗佘不可变更为本地冗余。

    • 相比本地冗余,同城冗余能够提供更高的数据可用性,但价格也相对更高。对数据高可用性要求较高的场景,推荐使用同城冗余。

    智能存储分层

    image开启后,系统将根据您配置的生命周期规则,自动对Catalog下所有表进行冷热分层。请根据业务需求填写分层策略和分层规则。

    说明
    • 如果Catalog级别开启智能分层,那么Table级别的智能存储分层会默认开启(继承自Catalog),并支持在Table级别修改配置。如果在表级别修改规则,则不再展示继承自Catalog。

    • 如果Catalog级别未开启智能分层,也支持在Table级别开启,并支持修改。

    分层策略

    • 最后访问时间:根据表/分区数据最后访问时间,进行规则判断。

    • 最后更新时间:按照表/分区数据最后更新时间,进行规则判断。

    分层规则

    不同存储类型的最低存储时间要求不同。

    存储类型

    最低存储时间

    低频访问存储

    30

    归档存储

    60

    冷归档存储

    180

    您可选择性配置以下分层规则:

    • 转换至低频访问存储

      • 配置天数:自定义,默认30天。

        数据最后访问时间超过该天数后,将会自动转为低频存储。低频存储依旧可以被计算引擎访问,但性能会有所下降。

      • 被访问自动转标准存储:如果勾选,在表/分区被访问时,系统会自动将该分区或非分区表转换为标准存储。

        说明

        仅在分层策略选择基于“最后访问时间”时支持该功能。

    • 转换至归档存储

      • 配置天数:自定义,默认60天。

        数据最后访问时间超过该天数后,将会自动转为归档存储。归档存储的数据,将无法被计算引擎访问。

      • 被访问自动转标准存储:如果勾选,在表/分区被访问时,系统会自动将该分区或非分区表转换为标准存储。

        说明

        仅在分层策略选择基于“最后访问时间”时支持该功能。

    • 转换至冷归档存储

      • 配置天数:自定义,默认180天。

        数据最后访问时间超过该天数后,将会自动转为冷归档存储。归档存储的数据,将无法被计算引擎访问。

  3. 勾选服务协议,并单击创建Catalog

查看数据目录

  1. 在左侧菜单栏,选择数据目录,单击Catalog名称,进入Catalog详情页。

  2. 单击详细信息页签,可查看Catalog基本信息。

    Catalog名称、CatalogId、描述、Catalog类型、创建人、Owner、创建时间、最近修改时间、存储位置、存储冗余类型、存储分层配置(可编辑)等。

    说明

    存储分层配置,参数详细说明请参见智能存储分层

  3. 数据库页签,可查看Catalog下所有的数据库信息。数据库相关操作,请参见数据库

  4. 单击权限页签,可为用户或角色授予数据目录相关权限。详情请参见授权管理

编辑数据目录

  1. Catalog列表页面,单击操作列的编辑,输入以下配置:

    • 描述:自定义。

    • 智能存储分层:可开启或修改配置。详细说明请参见智能存储分层

  2. 勾选同意服务协议,并单击更新Catalog

删除数据目录

重要

如果该数据目录下的default数据库中存在表,需要先删除这些表;如果存在default以外的数据库,需要先删除这些数据库及数据库下的表;否则Catalog将删除失败。

  1. Catalog列表页面,单击操作列的删除

  2. 在弹出的提示框中,单击确定