全部产品

使用DLA

配置数据湖投递任务后,表格存储的数据会持续投递到对应的OSS Bucket,当使用DLA执行SQL语句分析OSS中的数据前,需要使用元数据爬取或者手动创建指向OSS目录的外表。

前提条件

操作步骤

您可以通过向导式创建元数据爬取任务或者使用SQL手动创建方式使用DLA分析OSS中的数据,推荐使用向导式创建元数据爬取任务方式,请根据实际需要选择。

  • (推荐)向导式创建元数据爬取任务

    1. 通过DLA的控制台向导创建OSS目录中的元数据爬取任务,详情请参见元数据爬取

      元数据爬取任务可以在单次运行中自动为OSS中的数据文件创建和更新数据湖元数据(一张或多张表),具有自动探索文件数据字段及类型、自动映射目录和分区、自动感知新增列及分区、自动对文件进行分组建表的能力。

    2. 查询数据,详情请参见执行SQL语句

  • 使用SQL手动创建

    1. SQL执行页面,使用SQL创建Schema和指向OSS数据目录的外表,详情请参见创建Schema和外表

      说明

      您也可以通过向导式创建Schema或者直接选择已创建的Schema。

      创建指向OSS数据目录的外表时使用的SQL语句可以通过表格存储控制台获取,获取方法如下:

      在实例的数据湖投递页面,单击投递任务操作列的建表语句,可以查看和复制SQL语句,如下图所示。

      select

    2. 同步OSS数据源中实际的数据分区信息到元数据中,详情请参见同步数据分区

    3. 查询数据,详情请参见执行SQL语句