阿里云首页 数据湖构建

数据探索

数据探索是一种线上的交互式查询服务,开通即用。它是完全托管的,并且具备了高性能、弹性、易用等特点,无需申请任何资源即可直接使用。 用户可以对入湖后的数据使用Spark SQL快速的进行数据探索,以便对湖内数据进行审核,质量检查,分类等。 支持数据湖内多种存储格式,包括Delta,Hudi,CSV,Parquet,JSON,ORC等数据格式。

概览

准备工作

  1. 已开通OSS。

  2. 已开通DLF,并创建了元数据库

  3. 通过元数据发现/元数据发现入湖任务管理或者API等方式创建了元数据表。

运行查询

  1. 登录数据湖管理控制台,选择数据探索-Spark SQL

  2. 左侧元数据库/表区域,会列举出当前账户下所有元数据库和元数据表。您可以在此区域查看元数据表的基础信息,或者生成数据预览SQL语句。

  3. Spark 2.4?" commentTypeId="37" timestamp="2021-05-14T11:51:44+08:00" authorId="10754" uuid="84b25b54-e8ff-4775-8234-f9d1e6a2b022" id="comment-df8-oyf-3gy"> 在右侧SQL编辑器区域,输入SQL语句。本功能基于EMR Spark 2.4版本,更多特性详情请参见Spark 2.4?" commentTypeId="37" timestamp="2021-05-14T11:51:44+08:00" authorId="10754" uuid="84b25b54-e8ff-4775-8234-f9d1e6a2b022" id="comment-df8-oyf-3gy">Spark SQL Guide Spark 2.4?" commentTypeId="37" timestamp="2021-05-14T11:51:44+08:00" authorId="10754" uuid="84b25b54-e8ff-4775-8234-f9d1e6a2b022" id="comment-df8-oyf-3gy">。示例如下:

-- SQL语句示例
show databases;

4. 点击运行(或快捷键F8),下方会展示查询进度状态,当查询完毕时会直接显示查询结果。查询结果会分页展示,受前端限制目前最多展示10000条数据。如需获取全部查询结果,可以在配置存储路径之后进入OSS查看,或直接点击下载。

注意

DLF-Spark SQL不会在您的SQL语句后面自动加limit限制,请避免不必要的全表扫描,以免造成资源浪费。

运行查询

使用限制:

  1. SQL执行超时时间:60分钟

  2. SQL长度限制:不超过6000字符

  3. 查询结果展示:最多10000行

  4. 同一个账号,最大使用Spark Driver内存:4G

  5. 同一个账号,最大使用CU限制:200CU (1CU=1核4GB)

结果路径设置

您可以通过路径设置,把每次查询结果保存在OSS上,以便于全量结果的下载和归档。仅当设置了保存路径之后,才可以使用结果下载功能。保存的结果文件没有时间限制。

  1. 进入数据探索-Spark SQL,点击右上方路径设置按钮。

  2. 在弹出的OSS输入框中,选择用于保存查询结果的OSS路径。并点击确定

  3. 设置成功之后,执行的查询结果会自动全量写入您设置的OSS路径中,目前默认以CSV格式保存。如果您的查询结果很大时,下载导出可能需要几分钟,请耐心等待。

路径设置

保存查询

对于常用的查询,您可以直接保存。

  1. 在SQL编辑器中输入SQL语句,点击上方的保存按钮,或者Ctrl+S快捷键

  2. 在弹出的输入框中,输入本次保存的查询名称

  3. 保存成功后,您可以在下方的已存查询中,恢复保存过的查询

保存查询

运行历史

当前用户下,每次执行的查询都会记录在运行历史列表中。

  1. 打开下方运行历史TAB页

  2. 运行历史列表中,展示每次查询的运行开始时间、原始SQL语句、执行耗时和状态,如果您已经配置过结果路径,可以看到每次查询结果保存的OSS路径,或者直接进行下载操作。

运行历史