数据分析(新版数据分析)

如果需要快速地对数据进行查询与分析,您可以使用SQL语句查询MaxCompute、EMR Hive、Hologres等数据源。本文为您介绍如何通过SQL语句查询数据源。

支持的数据源

SQL查询支持的数据源类型包含:MaxComputeHologresEMRCDHADB for PostgreSQLADB for MySQLClickHouseStarRocksMySQLPostgreSQLOracleSQL ServerDorisSelectDB

说明

MaxCompute支持直接连接和数据源两种方式查询,其他类型数据源仅支持已添加到工作空间的数据源。

数据源权限说明

数据源范围

  • 如果选择数据源方式连接:仅支持选择有权限的工作空间内的数据源数据,因此您需要先联系管理员将您添加为工作空间的数据分析师、模型设计师、开发、运维、空间管理员或项目所有者。

  • 如果选择直接连接:仅支持选择当前登录账号已经加入的MaxCompute项目,MaxCompute项目相关权限设置,请参见MaxCompute用户与权限

数据源访问权限

数据源访问支持以下两种身份模式访问。

访问身份模式

模式说明

支持数据源

授权操作

执行者身份

当前登录DataWorks的阿里云账号身份。

MaxComputeHologres。

让指定MaxCompute项目或者Hologres实例的管理者,授权您成员访问权限。

数据源默认访问身份

创建数据源时配置的访问身份。

本功能支持的数据源

若您当前登录账号非数据源默认访问身份时,需让拥有工作空间管理员权限的用户为您当前登录的云账号授权

重要

如果MaxCompute项目空间开启了白名单访问控制,请在MaxCompute项目IP白名单上添加数据分析白名单

功能入口

您需要先登录阿里云,然后通过浏览器访问新版数据分析对应地域的页面。请根据您的数据源业务所在地域按需选择。

  1. 进入对应地域的新版数据分析页面。

    华东1(杭州)华东2(上海)华北2(北京)华北3(张家口)华北6(乌兰察布)华南1(深圳)西南1(成都)中国香港日本(东京)新加坡马来西亚(吉隆坡)印度尼西亚(雅加达)德国(法兰克福)英国(伦敦)美国(硅谷)美国(弗吉尼亚)

  2. 在左侧导航栏单击image,进入数据分析。

新建SQL查询

基于数据源查询

  1. 我的文件右侧单击image > 新建SQL文件,设置文件名称后保存即可。

    image

    您也可以单击新建文件夹,自定义规划SQL查询文件的目录结构。
  2. SQL编辑页面,编写SQL查询语句。

    • 编辑SQL后,您可以单击顶部的格式化按钮,对代码进行格式化。

    • SQL查询支持使用Copilot,您可以单击页面顶部Copilot图标(image),使用智能助手的相关功能(如代码生成代码纠错等),辅助完成代码编写;同时,Copilot还支持在编辑器中代码自动补全,提升编写效率。

    示例SQL

    以查询MaxComputeGithub公开事件数据为例,SQL查询语句如下:

    --开启SessionSchema语法
    SET odps.namespace.schema=true; 
    --查询表dwd_github_events_odps中的100条数据
    SELECT * FROM bigdata_public_dataset.github_events.dwd_github_events_odps WHERE ds='${dt}' LIMIT 100;
    说明
    • 查询MaxCompute中的数据时,如果目标项目开启了Schema语法,则推荐在查询语句前使用SET odps.namespace.schema=true;开启SessionSchema语法,避免查询失败。

    • 默认情况下,查询将基于当前运行配置指定的数据源执行。如需查询其他已加入的MaxCompute项目,您需在查询语句中显式指定对应项目名称。例如,运行配置中指定计算资源为MaxCompute A,查询语句中指定MaxCompute B(SELECT * FROM B.schema_name.table_name WHERE ****),此时将使用A作为执行引擎,查询B中的数据。

  3. 编写完成SQL查询代码后,单击右侧运行配置,设置SQL查询时使用的数据源脚本参数等。

    image

    • 类型:按需选择SQL查询语句查询的目标数据源类型

    • 计算资源:SQL查询的目标数据源配置,仅查询MaxCompute数据时支持直接连接或数据源连接,其他类型仅支持查询有权限的工作空间内的数据源数据,具体权限说明,请参见数据源权限说明

    • 脚本参数:如果您在SQL查询中使用了参数变量,则可以在此处对运行时变量进行赋值。

  4. SQL编辑页面顶部工具栏单击运行,然后在结果窗口中,查看执行SQL内容、运行日志运行结果

    image

基于数据目录查询

说明

当前数据分析数据目录中仅支持添加MaxCompute项目,因此,基于数据目录查询只能对MaxCompute表数据进行查询和分析。

  1. 在左侧导航栏单击image,进入数据目录:MAXCOMPUTE

  2. 您可以单击image或在左侧二级目录中单击添加项目,找到待进行数据分析的表所在的MaxCompute项目,单击操作列的添加,将您具备管理/查询权限的MaxCompute项目添加到数据目录。

    image

  3. 添加项目后,在左侧二级目录即可逐级展开,找到待进行数据分析的表,单击表名,即可在右侧查看表的基本信息。

  4. MaxComputeGithub公开事件数据为例,单击image图标,自动生成SQL查询语句并进入SQL编辑窗口。

    image

  5. 您可以手动调整SQL查询语句,然后单击右侧运行配置,设置SQL查询时使用的数据源脚本参数等。

    image

    • 计算资源:SQL查询任务查询的目标数据源,MaxCompute项目支持直接连接或数据源连接。

    • 脚本参数:如果您在SQL查询中使用了参数变量,则可以在此处对运行时变量进行赋值。

  6. SQL编辑页面顶部工具栏单击运行,然后在结果窗口中,查看执行SQL内容、运行日志运行结果

查询结果可视化

在查询结果左侧工具栏,单击image按钮,可将结果自动生成可视化图表。

说明

image

导出与分享

重要

若您有将数据导出到本地后再导入到其他数据源的需求,建议通过数据集成离线同步任务进行同步,从而实现更高效、稳定的数据迁移与同步。

SQL查询结果右侧,单击导出,支持导出如下形式:

image

  • 本地文件:将查询结果以CSV格式下载至本地。关键说明如下:

    重要

    MaxCompute项目开启了数据保护机制(即禁止下载数据),则通过数据分析下载数据会失败。

    • 下载范围:当前仅支持下载表格中展示数据,默认最多为10000条。

    • 下载方式:支持审批下载免审批下载

      • 审批下载:支持您通过设置风险识别规则来识别下载数据操作行为中的风险。下载数据时,需提交下载审批申请,以确保数据使用的合规性和安全性。

        说明

        DataWorks企业版支持设置并开启风险识别规则。

      • 免审批下载:默认为免审批下载,在下载过程中无需进行权限申请。

  • 电子表格/电子表格并分享您可保存至电子表格进一步深入分析查询数据。同时支持将电子表格的最新分析结果分享给他人。