什么是数据湖元数据管理_Databricks 数据洞察（文档停止维护）(DDI)-阿里云帮助中心

Databricks 数据洞察DBR 7.3, Spark 3.0.1, Scala 2.12及之后版本，在创建集群选择元数据类型时支持数据湖元数据作为Hive数据库。数据湖元数据是服务化高可用并且可扩展的元数据库，您无需额外购买独立的元数据库，就可以实现多个引擎计算，例如同时使用Databricks 数据洞察和E-MapReduce。多个Databricks 数据洞察集群可以共享统一元数据库。

前提条件

已在数据湖构建（Data Lake Formation）控制台开通数据湖构建。

重要

数据湖元数据产品目前只支持华北2（北京）、华东2（上海）和华东1（杭州）三个地域。

进入RAM访问控制台给AliyunDDIAccessingOSSRole角色添加一个AliyunDDIAccessingDLFRolePolicy自定义策略，策略详情如下：

{
    "Version": "1",
    "Statement": [
        {
            "Action": [
                "dlf:BatchCreatePartitions",
                "dlf:BatchCreateTables",
                "dlf:BatchDeletePartitions",
                "dlf:BatchDeleteTables",
                "dlf:BatchGetPartitions",
                "dlf:BatchGetTables",
                "dlf:BatchUpdatePartitions",
                "dlf:BatchUpdateTables",
                "dlf:CreateDatabase",
                "dlf:CreateFunction",
                "dlf:CreatePartition",
                "dlf:CreateTable",
                "dlf:DeleteDatabase",
                "dlf:DeleteFunction",
                "dlf:DeletePartition",
                "dlf:DeleteTable",
                "dlf:GetDatabase",
                "dlf:GetFunction",
                "dlf:GetPartition",
                "dlf:GetTable",
                "dlf:ListCatalogs",
                "dlf:ListDatabases",
                "dlf:ListFunctionNames",
                "dlf:ListFunctions",
                "dlf:ListPartitionNames",
                "dlf:ListPartitions",
                "dlf:ListPartitionsByExpr",
                "dlf:ListPartitionsByFilter",
                "dlf:ListTableNames",
                "dlf:ListTables",
                "dlf:RenamePartition",
                "dlf:RenameTable",
                "dlf:UpdateDatabase",
                "dlf:UpdateFunction",
                "dlf:UpdateTable",
                "dlf:UpdateTableColumnStatistics",
                "dlf:GetTableColumnStatistics",
                "dlf:DeleteTableColumnStatistics",
                "dlf:UpdatePartitionColumnStatistics",
                "dlf:GetPartitionColumnStatistics",
                "dlf:DeletePartitionColumnStatistics",
                "dlf:BatchGetPartitionColumnStatistics"
            ],
            "Resource": "*",
            "Effect": "Allow"
        }
    ]
}

背景信息

数据湖元数据已适配Databricks 数据洞察的Spark SQL。

适用场景

数据湖元数据具有高可用和易维护的特点，因此适合在如下场景下使用数据湖元数据：

Databricks 数据洞察集群的生产环境，您无需维护独立的元数据库。
横向使用多种大数据计算引擎，例如Databricks 数据洞察、MaxCompute、EMR等，元数据可以集中管理。
多个Databricks 数据洞察集群，可以统一管理元数据。

创建集群

创建Databricks 数据洞察集群时，如图元数据选择为数据湖元数据方式，创建详情请参见创建集群。

说明

如果需要迁移数据库的元数据信息，请提交工单处理。