数据湖元数据管理

Databricks 数据洞察DBR 7.3, Spark 3.0.1, Scala 2.12及之后版本,在创建集群选择元数据类型时支持数据湖元数据作为Hive数据库。数据湖元数据是服务化高可用并且可扩展的元数据库,您无需额外购买独立的元数据库,就可以实现多个引擎计算,例如同时使用Databricks 数据洞察和E-MapReduce。多个Databricks 数据洞察集群可以共享统一元数据库。

前提条件

重要

数据湖元数据产品目前只支持华北2(北京)、华东2(上海)和华东1(杭州)三个地域。

  • 进入RAM访问控制台给AliyunDDIAccessingOSSRole角色添加一个AliyunDDIAccessingDLFRolePolicy自定义策略,策略详情如下:

{
    "Version": "1",
    "Statement": [
        {
            "Action": [
                "dlf:BatchCreatePartitions",
                "dlf:BatchCreateTables",
                "dlf:BatchDeletePartitions",
                "dlf:BatchDeleteTables",
                "dlf:BatchGetPartitions",
                "dlf:BatchGetTables",
                "dlf:BatchUpdatePartitions",
                "dlf:BatchUpdateTables",
                "dlf:CreateDatabase",
                "dlf:CreateFunction",
                "dlf:CreatePartition",
                "dlf:CreateTable",
                "dlf:DeleteDatabase",
                "dlf:DeleteFunction",
                "dlf:DeletePartition",
                "dlf:DeleteTable",
                "dlf:GetDatabase",
                "dlf:GetFunction",
                "dlf:GetPartition",
                "dlf:GetTable",
                "dlf:ListCatalogs",
                "dlf:ListDatabases",
                "dlf:ListFunctionNames",
                "dlf:ListFunctions",
                "dlf:ListPartitionNames",
                "dlf:ListPartitions",
                "dlf:ListPartitionsByExpr",
                "dlf:ListPartitionsByFilter",
                "dlf:ListTableNames",
                "dlf:ListTables",
                "dlf:RenamePartition",
                "dlf:RenameTable",
                "dlf:UpdateDatabase",
                "dlf:UpdateFunction",
                "dlf:UpdateTable",
                "dlf:UpdateTableColumnStatistics",
                "dlf:GetTableColumnStatistics",
                "dlf:DeleteTableColumnStatistics",
                "dlf:UpdatePartitionColumnStatistics",
                "dlf:GetPartitionColumnStatistics",
                "dlf:DeletePartitionColumnStatistics",
                "dlf:BatchGetPartitionColumnStatistics"
            ],
            "Resource": "*",
            "Effect": "Allow"
        }
    ]
}

背景信息

数据湖元数据已适配Databricks 数据洞察的Spark SQL。

适用场景

数据湖元数据具有高可用和易维护的特点,因此适合在如下场景下使用数据湖元数据:

  • Databricks 数据洞察集群的生产环境,您无需维护独立的元数据库。

  • 横向使用多种大数据计算引擎,例如Databricks 数据洞察、MaxCompute、EMR等,元数据可以集中管理。

  • 多个Databricks 数据洞察集群,可以统一管理元数据。

创建集群

创建Databricks 数据洞察集群时,如图元数据选择数据湖元数据方式,创建详情请参见创建集群

data
说明

如果需要迁移数据库的元数据信息,请提交工单处理。