建表向导

云原生数据湖分析(Data Lake Analytics,DLA)是无服务器(Serverless)化的云上交互式查询分析服务,支持通过标准SQL分析多种数据源中的数据,快速入门将以DLA读取OSS数据为例,帮助您掌握DLA的基本使用流程。

数据源

DLA SQL读写

DLA Spark读写

OSS

支持

支持

RDS

支持

待支持

PolarDB

支持

待支持

MongoDB

支持

待支持

Tablestore

支持

支持

AnalyticDB for MySQL 2.0

支持

待支持

AnalyticDB for MySQL 3.0

支持

待支持

AnalyticDB for PostgreSQL

支持

待支持

MaxCompute

支持

支持

ElasticSearch

支持

待支持

ECS自建Druid数据库数据

支持

待支持

步骤一:开通OSS数据源

如果您在DLA中没有开通OSS数据源,需参照以下步骤开通OSS数据源。

  1. 登录数据湖分析管理控制台

  2. 在页面左上角,选择集群所在地域。

  3. 单击左侧导航栏的数据湖构建 > 元数据管理

  4. 创建Schema页面的常用页签下,选择对象存储服务中的使用向导创建。若您的账号还未开通OSS数据源,根据系统提示开通OSS数据源。

步骤二:创建Schema

DLA提供两种创建OSS Schema的方法:通过向导模式创建OSS Schema和操作步骤。本示例介绍如何通过向导模式创建OSS Schema。

  1. 登录数据湖分析管理控制台

  2. 在页面左上角,选择集群所在地域。

  3. 单击左侧导航栏的数据湖管理 > 元数据管理

  4. 创建Schema页面的常用页签下,选择对象存储服务中的使用向导创建

  5. 创建Schema页面,按照页面提示进行参数配置。

    创建Schema
    • Bucket:系统自动拉取与DLA同地域的OSS Bucket,根据业务需求从下拉列表中选择Bucket。

      选择Bucket后,系统自动列出该Bucket下所有的Object和文件,支持模糊搜索Object,单击目标Object将其添加到右侧的数据位置处。

    • 数据位置:文件在OSS中的存储地址,以/结尾。

      配置Schema
  6. 完成上述参数配置后,单击下一步

  7. 创建Schema页面预览生成的Schema创建语句,可以根据需要修改SQL。

  8. 确认SQL无误后,单击执行,在弹出的执行确认窗口,单击确认创建Schema。

步骤三:创建表

DLA提供两种创建OSS表的方法:通过向导模式创建OSS表和操作步骤。本示例介绍如何通过向导模式创建OSS表。

  1. 登录数据湖分析管理控制台

  2. 在页面左上角,选择集群所在地域。

  3. 单击左侧导航栏的数据湖管理 > 元数据管理

  4. 在元数据管理列表,单击目标Schema右侧的创建新表

  5. 快速建表页面,选择目标Schema,然后单击下一步

  6. 根据系统提示进行参数配置。

    若文件夹下有子文件夹,单击文件夹将显示子文件夹,左边的数据位置也会随着改变。单击箭头图标返回上层文件夹。

    创建表

    参数

    说明

    表名

    设置OSS的表名。

    数据位置

    系统根据文件夹的路径,自动设置数据位置。

    文件类型

    支持JSON和Text两种类型。

    压缩格式

    选择默认无压缩。

    目录扫描模式

    配置表所在目录下的资源扫描方式。递归遍历:扫描所有文件及子目录。不递归遍历:扫描所有文件,不包含任何目录。

    行分隔符

    文件类型为Text时,设置数据的行分隔符。行分隔符支持回车符和换行符。

    跳过行数

    读取文件数据时,从第一行开始跳过的行数。

    列分隔符

    文件类型为Text时,设置数据的列分隔符。列隔符支持英文逗号(,)和竖线(|),支持自定义列分隔符。

    列识别深度

    -

    仅包含文件

    设置要扫描哪些文件。特定文件:输入扫描文件的文件名,只扫描某个特定文件某类文件:使用通配符,设置扫描某类文件,例如.json表示扫描所有JSON文件。

  7. 完成上述参数配置,单击下一步

  8. 编辑列页面,单击下一步

    编辑列
  9. 预览页面,确认Create Table无误,单击执行。在弹出的执行确认窗口,单击确认,系统开始执行Create Table SQL。