MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现,将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,助力于构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过Dataphin管理MaxCompute和数据湖构建DLF的湖仓一体的数据资产。
背景信息
MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现。当前支持的两种构建湖仓一体方式如下:
通过MaxCompute与数据湖构建DLF和对象存储OSS构建湖仓一体:数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对OSS元数据管理能力,提升对OSS半结构化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。更多DLF和OSS介绍,请参见数据湖构建DLF和对象存储OSS。
通过MaxCompute与Hadoop构建湖仓一体:该方式包括本地机房搭建、基于云上虚拟机搭建以及阿里云E-MapReduce等。当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。
前提条件
在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前,您需要确保已经完成以下准备工作:
已开通DLF服务。您可以在DLF开通页面,开通DLF服务。
已开通OSS服务。详情请参见开通OSS服务。
已开通MaxCompute服务并创建了MaxCompute项目,详情可见MaxCompute项目。
create externalproject -source dlf -name external_project -- 必填。待创建External Project的名称。 -ref maxcompute_project -- 已创建的MaxCompute项目名称 -comment "DLF" -region "cn-hangzhou" -- DLF所在地域的RegionID。各地域RegionID信息,请参见获取RegionID及VPC ID。 -db metadat_store -- DLF元数据库的名称。 -endpoint "dlf-share.cn-hangzhou.aliyuncs.com" -- DLF的Endpoint信息 -ossEndpoint "oss-cn-hangzhou-internal.aliyuncs.com"; -- OSS所属地域的Endpoi
MaxCompute访问授权
当您通过MaxCompute与Hadoop构建湖仓一体时,授权方法如下。
授予MaxCompute在用户VPC内创建ENI网卡的权限,以实现MaxCompute到用户VPC的网络连通。您可以使用VPC所有者账号登录阿里云,单击授权进行授权。
当您通过MaxCompute与DLF和OSS构建湖仓一体时,授权方法如下。
MaxCompute项目的账号未经授权无法访问DLF,您需要执行授权操作。授权方式包含以下两种:
通过Dataphin管理MaxCompute湖仓一体
数据湖构建DLF可用于OSS的元数据发现及管理,MaxCompute可基于DLF创建外部项目将DLF管理的元数据注册到MaxCompute的外部项目中。Dataphin即可基于MaxCompute和DLF对湖仓一体的数据进行数据的加工处理(离线研发及规范建模),元数据管理、访问权限及安全管理、数据质量稽核与计算资源的治理。
创建MaxCompute计算源并绑定到Dataphin项目中
需要创建MaxCompute计算源,将MaxCompute的外部项目注册进来。由于MaxCompute外部项目不包含计算资源,我们需要额外指定一个MaxCompute项目用户任务的执行、质量规则、安全规则扫描以及安装安全策略。如何创建MaxCompute计算源,详情请参见新建MaxCompute计算源。
创建好计算源后,即可创建项目,并将创建好的计算源注册为MaxCompute的计算源。
基于MaxCompute湖仓一体的外部项目的数据进行规范建模和数据处理
创建MaxCompute计算源并绑定到Dataphin项目中后,规范建模可基于外部项目中的来源表创建逻辑表,MaxCompute SQL任务可用映射的内部项目的计算资源来执行,并支持读写外部项目中的表数据。
查看湖仓一体的元数据信息及进行权限管控
支持查看元数据信息。
支持外部项目中的数据表及字段的资产搜索及查询。
支持数据预览。
支持生成select语句及DDL语句。
支持申请外部项目中的表及字段的权限。
对湖仓一体的数据进行质量稽核和安全管控
支持基于外部项目的物理表配置数据表质量规则。
支持MaxComput SQL任务执行质量规则校验。
支持安全规则扫描以及安装安全策略。