数据目录(Catalog)是数据湖构建(Data Lake Formation)的元数据顶层逻辑实体,采用层级化结构组织元数据资源。适用于不同业务或不同用户间的元数据隔离与权限管控,以及湖数据存储和湖表运维管理等场景。本文为您介绍数据目录(Catalog)的基本操作。
前提条件
在使用DLF前,已完成阿里云账号角色授权,且已开通DLF服务。详情请参见授权并开通DLF。
说明授权和开通操作仅需在首次使用DLF时完成。
若使用RAM用户管理Catalog,需满足以下权限要求:
管控API层面:RAM用户需要具备AliyunDLFFullAccess权限,或被授予Catalog相关的具体鉴权Action,详情请参见RAM授权Action参考。
数据层面:仅主账号,或被赋予super_administrator或admin角色,或被授予Catalog管理权限的RAM用户,才具备创建Catalog的权限。请参见配置数据权限。
使用限制
每个账号在每个地域最多可创建10个Catalog。如需创建更多Catalog,请提交工单申请。
新建数据目录
登录数据湖构建控制台。
在数据目录列表页面,单击新建Catalog,配置以下信息。
配置项
说明
Catalog名称
必选,唯一标识,不可重名。
描述
可选,输入描述信息。
存储类型
标准存储。
存储冗余类型
可选以下两种类型:
本地冗余(默认):数据存储在单可用区(AZ)。当该可用区不可用时,会导致相关数据不可访问,推荐使用同城冗余。
同城冗余:同一地域(Region)内多可用区(AZ)冗余机制,当某个可用区(AZ)不可用时,仍能保证数据可用性。
说明Catalog创建后,同城冗佘不可变更为本地冗余。
相比本地冗余,同城冗余能够提供更高的数据可用性,但价格也相对更高。对数据高可用性要求较高的场景,推荐使用同城冗余。
勾选服务协议,并单击创建Catalog。
查看数据目录
存储优化
配置项 | 说明 |
智能存储分层 |
说明
|
分层策略 |
|
分层规则 | 不同存储类型的最低存储时间要求不同。 您可选择性配置以下分层规则:
|
目录配置
文件碎片生命周期策略
指定文件碎片的过期时间,不得小于1天。(过期后将被系统删除,删除后不可恢复)
高级配置
可以覆盖 Paimon 建表默认参数,参数详情请参见Paimon Table。
删除数据目录
如果该数据目录下的default数据库中存在表,需要先删除这些表;如果存在default以外的数据库,需要先删除这些数据库及数据库下的表;否则Catalog将删除失败。
在Catalog列表页面,单击操作列的删除。
在弹出的提示框中,单击确定。
开启后,系统将根据您配置的生命周期规则,自动对Catalog下所有表进行冷热分层。请根据业务需求填写分层策略和分层规则。