文档

MaxCompute湖仓一体

更新时间:

MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现,将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,助力于构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过Dataphin管理MaxCompute和数据湖构建DLF的湖仓一体的数据资产。

背景信息

MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现。当前支持的两种构建湖仓一体方式如下:

  • 通过MaxCompute与数据湖构建DLF和对象存储OSS构建湖仓一体:数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对OSS元数据管理能力,提升对OSS半结构化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。更多DLF和OSS介绍,请参见数据湖构建DLF对象存储OSS

  • 通过MaxCompute与Hadoop构建湖仓一体:该方式包括本地机房搭建、基于云上虚拟机搭建以及阿里云E-MapReduce等。当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。

前提条件

在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前,您需要确保已经完成以下准备工作:

  • 已开通DLF服务。您可以在DLF开通页面,开通DLF服务。

  • 已开通OSS服务。详情请参见开通OSS服务

  • 已开通MaxCompute服务并创建了MaxCompute项目,详情可见MaxCompute项目

    create externalproject -source dlf -name external_project  -- 必填。待创建External Project的名称。
    -ref maxcompute_project -- 已创建的MaxCompute项目名称
    -comment "DLF"
    -region "cn-hangzhou" -- DLF所在地域的RegionID。各地域RegionID信息,请参见获取RegionID及VPC ID。
    -db metadat_store -- DLF元数据库的名称。
    -endpoint "dlf-share.cn-hangzhou.aliyuncs.com" -- DLF的Endpoint信息
    -ossEndpoint "oss-cn-hangzhou-internal.aliyuncs.com"; -- OSS所属地域的Endpoi

MaxCompute访问授权

  • 当您通过MaxCompute与Hadoop构建湖仓一体时,授权方法如下。

    授予MaxCompute在用户VPC内创建ENI网卡的权限,以实现MaxCompute到用户VPC的网络连通。您可以使用VPC所有者账号登录阿里云,单击授权进行授权。

  • 当您通过MaxCompute与DLF和OSS构建湖仓一体时,授权方法如下。

    MaxCompute项目的账号未经授权无法访问DLF,您需要执行授权操作。授权方式包含以下两种:

    • 一键授权:当创建MaxCompute项目的账号和部署DLF的账号相同时。建议您直接单击授权DLF进行一键授权。

    • 自定义授权:当创建MaxCompute项目的账号和部署DLF的账号相同或不相同,都可以使用该方式。详情请参见自定义授权DLF

通过Dataphin管理MaxCompute湖仓一体

数据湖构建DLF可用于OSS的元数据发现及管理,MaxCompute可基于DLF创建外部项目将DLF管理的元数据注册到MaxCompute的外部项目中。Dataphin即可基于MaxCompute和DLF对湖仓一体的数据进行数据的加工处理(离线研发及规范建模),元数据管理、访问权限及安全管理、数据质量稽核与计算资源的治理。image

创建MaxCompute计算源并绑定到Dataphin项目中

需要创建MaxCompute计算源,将MaxCompute的外部项目注册进来。由于MaxCompute外部项目不包含计算资源,我们需要额外指定一个MaxCompute项目用户任务的执行、质量规则、安全规则扫描以及安装安全策略。如何创建MaxCompute计算源,详情请参见新建MaxCompute计算源

创建好计算源后,即可创建项目,并将创建好的计算源注册为MaxCompute的计算源。

基于MaxCompute湖仓一体的外部项目的数据进行规范建模和数据处理

创建MaxCompute计算源并绑定到Dataphin项目中后,规范建模可基于外部项目中的来源表创建逻辑表,MaxCompute SQL任务可用映射的内部项目的计算资源来执行,并支持读写外部项目中的表数据。

查看湖仓一体的元数据信息及进行权限管控

  • 支持查看元数据信息。

  • 支持外部项目中的数据表及字段的资产搜索及查询。

  • 支持数据预览。

  • 支持生成select语句及DDL语句。

  • 支持申请外部项目中的表及字段的权限。

对湖仓一体的数据进行质量稽核和安全管控

  • 支持基于外部项目的物理表配置数据表质量规则。

  • 支持MaxComput SQL任务执行质量规则校验。

  • 支持安全规则扫描以及安装安全策略。

  • 本页导读 (0)
文档反馈