本文档主要介绍云原生数据湖分析(Data Lake Analytics,DLA)文档中涉及的基本概念。

数据湖

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据,数据湖支持存储EB级别的数据,阿里云数据湖存储以OSS为代表!

数据湖分析

数据湖分析就是针对数据湖数据分析的方案。云原生数据湖分析(简称DLA)是新一代大数据解决方案,采取计算与存储完全分离的架构,支持 数据库(RDS\PolarDB)与消息实时归档建仓,提供弹性的Spark与Presto,满足在线交互式查询、流处理、批处理、机器学习等诉求,也是传统Hadoop方案上云的有竞争力的解决方案。

虚拟集群VC(Virtual Cluster)

虚拟集群VC(Virtual Cluster)是对底层资源的抽象,可以针对VC配置网络打通及一些基本的信息。当您选CU版本计费时,需要构建VC集群。扫描量版本的资源是平台构建一批VC,用户无需直接为资源付费,资源会按照扫描量转化为实际的费用,主要是为了满足用户无需持有资源且能得到立即响应的体验。

DLA账号

账号分为DLA账号、RAM账号,DLA账号与RAM账号可以进行关联。

DLA元数据

元数据:支持库(Schema,是表的集合)、表(Table,是同构行记录的集合)、列(Column,描述一行数据的某个属性)、视图(View,将某个查询的结果抽象成一张表)等,每个库(Schema)只能对应一种数据源,元数据是 SQL引擎、Spark引擎均可安全访问。

DLA语法标准

  • DDL:参考Hive标准。
  • DCL:MySQL数据库标准。
  • DML:SQL是兼容Presto标准,Spark SQL是Spark的标准。