搭建与管理(基于DLF和OSS)

通过MaxComputeDLFOSS的组合,可以实现数据仓库和数据湖的一体化,提供更加灵活和高效的数据处理能力。本文介绍如何通过MaxCompute、DLFOSS构建湖仓一体,以及湖仓一体项目的管理。

适用范围

  • 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、新加坡和德国(法兰克福)地域支持构建湖仓一体能力。

  • MaxCompute、OSSDLF必须部署在同一地域。

操作流程

  1. 开通服务

  2. MaxCompute访问授权

    当通过MaxComputeDLFOSS构建湖仓一体时,由于MaxCompute项目的账号未经授权无法访问DLFOSS,需要执行授权操作。授权方式包含以下两种:

    • 一键授权:当创建MaxCompute项目的账号和部署DLF、OSS的账号相同时。推荐直接单击授权DLFOSS进行一键授权。

    • 自定义授权:当创建MaxCompute项目的账号和部署DLF、OSS的账号相同或不相同,都可以使用该方式。详情请参见自定义授权

  3. 通过DataWorks构建湖仓一体

    1. 登录DataWorks控制台,在左上角选择地域。

      湖仓一体支持的地域,详情请参见适用范围

    2. 在左侧导航栏选择其他 > 数据湖集成(湖仓一体)

    3. 数据湖集成(湖仓一体)页面,单击现在开始创建

    4. 新建数据湖集成页面,按照界面指引进行操作。

      参数说明如下所示:

      • 创建数据仓库

        参数

        说明

        外部项目名称

        自定义外部项目名称。命名规则如下:

        • 名称需以字母开头,且只能包含字母、下划线和数字。

        • 名称不能超过128个字符。

        外部项目基本概念,参考项目概念

        MaxCompute项目

        选择对应的MaxCompute项目。

      • 创建外部数据湖连接

        参数

        说明

        异构数据平台类型

        • 阿里云 E-MapReduce/Hadoop 集群:通过MaxComputeHadoop构建湖仓一体。

        • 阿里云DLF + OSS 数据湖链接:通过MaxComputeDLFOSS构建湖仓一体。

        阿里云DLF+OSS数据湖连接

        External Project描述

        可选。外部项目描述。

        DLF所在区

        连接DLF所在的可用区,请根据地域选择。可选项如下:

        • 杭州:cn-hangzhou

        • 上海:cn-shanghai

        • 北京:cn-beijing

        • 深圳:cn-shenzhen

        • 张家口:cn-zhangjiakou

        • 新加坡:ap-southeast-1

        • 法兰克福:eu-central-1

        DLF Endpoint

        DLF的对内服务Endpoint,请您根据地域进行选择。可选项如下:

        • 华东1(杭州):dlf-share.cn-hangzhou.aliyuncs.com

        • 华东2(上海):dlf-share.cn-shanghai.aliyuncs.com

        • 华北2(北京):dlf-share.cn-beijing.aliyuncs.com

        • 华北3(张家口):dlf-share.cn-zhangjiakou.aliyuncs.com

        • 华南1(深圳):dlf-share.cn-shenzhen.aliyuncs.com

        • 中国香港:dlf-share.cn-hongkong.aliyuncs.com

        • 新加坡(东南亚1):dlf-share.ap-southeast-1.aliyuncs.com

        • 德国(法兰克福):dlf-share.eu-central-1.aliyuncs.com

        DLF数据库名称

        • 连接DLF的目标数据库名称。

        • 获取方式:

          1. 登录数据湖构建(DLF)控制台,在左上角选择地域。

          2. 在左侧导航栏,选择元数据 > 元数据管理

          3. 元数据管理页面,单击数据表页签。

            获取DLF数据库名称。

        • 目前仅支持选择DLF默认Catalog(数据目录)下的数据库。

        1. 登录数据湖构建(DLF)控制台,在左上角选择地域。

        2. 在左侧导航栏,选择元数据 > 元数据管理

        3. 元数据管理页面,单击数据表页签。

        DLF RoleARN

        可选。RAM角色的ARN信息。采用自定义授权方式时,需要配置该参数。

        获取方式:

        1. 登录RAM控制台

        2. 在左侧导航栏选择身份管理 > 角色

        3. 角色页面,单击目标角色名称,进入该角色详情页。

        4. 基础信息区域,可以获取ARN信息。

  4. 通过DataWorks管理湖仓一体

    1. 登录DataWorks控制台,在左上角选择地域。

    2. 在左侧导航栏选择其他 > 数据湖集成(湖仓一体)

    3. 其他数据湖集成(湖仓一体)页面可以执行如下操作:

      1. 选择目标外部项目,单击目标外部项目操作列的使用湖仓一体,开始使用。

      2. 单击目标外部项目操作列的项目配置,即可在项目配置对话框更新外部项目信息。

      3. 更新MaxCompute外部项目映射的外部数据源的数据库名称,以及重新选择外部数据源。如果需要删除外部数据源,请到外部数据源页面进行删除(暂不支持外部数据源更新操作)。

      4. 单击目标外部项目操作列的删除,即可删除当前MaxCompute外部项目。该删除操作为逻辑删除操作,外部项目会进入静默状态,并在15天后被正式删除。在此期间无法创建同名外部项目。

    4. 查看湖仓一体外部项目的元数据信息

      1. 登录DataWorks控制台,在左上角选择地域。

      2. 在左侧导航栏选择工作空间

      3. 工作空间列表页面,单击目标工作空间对应的操作快速进入 > 数据地图

        选择与外部项目绑定的工作空间。

      4. 快速进入数据地图页面的搜索框或单击左侧导航栏image图标,在右侧目录列表页签下,搜索外部项目中的表名。

      表中的元数据信息为T+1更新,即在映射端(如Hive中)修改表结构,则T+1地体现在DataWorks数据地图中(MaxCompute引擎侧为实时元数据)。

DataWorks数据开发中查看外部项目元数据信息

  1. 登录DataWorks控制台,在左上角选择地域。

  2. 在左侧导航栏选择工作空间

  3. 工作空间列表页面,单击目标工作空间对应的操作快速进入 > Data Studio

  4. Data Studio页面,单击左侧导航栏image图标,在数据目录中单击MaxCompute,在右侧MaxCompute - 项目页签,添加已有外部项目或新建项目。

  5. 单击目标表名称即可在下方查看表结构信息。

    说明
    • 表中的元数据信息为T+1更新,即在映射端(如Hive中)修改表结构,则T+1地体现在DataWorks数据地图中(MaxCompute引擎侧为实时元数据)。

外部项目元数据信息

相关文档

基于DLF、RDSFlink、OSS支持Delta LakeHudi存储机制的湖仓一体方案,请参见基于DLF、RDSFlink、OSS支持Delta LakeHudi存储机制