数据分析入门

更新时间: 2023-08-17 18:44:39

DataWorks数据分析旨在为企业提供全面的数据分析与服务共享能力,可便捷地连接各类数据源、SQL查询、提供电子表格等多种数据分析能力,满足日常取数及分析需求。本文通过SQL查询模块使用MaxCompute引擎,对公共数据集数据进行查询与分析为例,为您介绍数据分析的基本使用。

前提条件

已拥有数据分析权限。您可根据数据分析预设角色权限列表,授予用户相关角色授权。授权操作请参见添加空间成员并管理成员角色权限

背景信息

数据分析为您提供了多种业务场景下的公共数据集,您可基于该公共数据快速体验数据分析相关功能。本文示例基于阿里电商数据集(commerce_ali_e_commerce,统计淘宝不同时间段的订单数量并排序。

  • commerce_ali_e_commerce表说明:包含了2017年11月25日2017年12月3日之间,约100万用户随机行为(包括点击、购买、加购、喜欢),其中用户数量987,994,商品数量4,162,024,所有行为数量100,150,807

  • 数据分析模块的介绍,详情请参见概述

更多公共数据集,您可前往数据分析的SQL查询模块,在公共数据目录查看。

进入数据分析

  1. 登录DataWorks控制台,单击左侧导航栏的数据分析 > SQL查询,在下拉框中选择对应工作空间后单击进入SQL查询

说明

默认进入数据分析首页。您可根据下文操作流程进行数据的查询分析。

操作流程

  1. 步骤一:数据查询

    使用SQL查询功能,通过编写SQL语句的方式,快速查询具有权限的数据源数据,并进行简单分析。

  2. 步骤二:数据分析

    您可基于业务需求,通过便捷的可视化方式,使用各类图表对分析结果进行相关展示分析。

  3. 步骤三:数据分享

    您可选择将查询、分析的数据分享至其他用户,实现数据的在线流动。

步骤一:数据查询

本文示例基于阿里电商数据集(commerce_ali_e_commerce,统计淘宝不同时间段的订单数量并排序,并对查询结果进行分析及分享。

  1. 进入SQL查询。

    您可通过如下两种方式进入:

    • 方式一:在数据分析首页的快捷入口单击SQL查询

    • 方式二:在数据分析左侧导航栏单击SQL查询

  2. 创建临时查询文件。

    1. 新建文件。

      鼠标悬停至左侧导航栏的我的文件,单击新建图标,选择新建文件

    2. 配置文件信息。

      输入文件名称,单击确认

    本文使用DataWorks提供的示例临时查询文件。在SQL查询的欢迎页单击前往分析 > MaxCompute,即可生成用于统计阿里电商数据集(commerce_ali_e_commerce淘宝不同时间段订单数量并排序的临时查询文件。

  3. 设置SQL执行数据源。

    在临时查询文件的顶部菜单栏右侧,设置运行查询任务所需的数据源。设置数据源

  4. 编辑任务代码并执行。

    在临时查询文件的代码编辑区域,编辑并运行如下代码,基于公共数据集统计淘宝不同时间段订单数量并排序。编辑代码

    SET odps.namespace.schema = true
    ;
    
    SELECT  CASE    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 0
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 3 THEN '0点-3点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 4
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 7 THEN '4点-7点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 8
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 11 THEN '8点-11点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 12
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 15 THEN '12点-15点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 16
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 19 THEN '16点-19点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 20
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 23 THEN '20点-23点'
            END AS 下单时间
            ,COUNT(*) AS 订单数
    FROM    bigdata_public_dataset.commerce.commerce_ali_e_commerce
    GROUP BY 下单时间
    ORDER BY COUNT(*) DESC
    LIMIT   100
    ;
  5. 查看查询结果。

    结果数据

步骤二:数据分析

步骤一的查询结果页,单击左侧导航栏的展示图标,根据业务需求分析展示查询结果。

  • 示例一:使用条形图查看不同时间段的订单数总和。

    查看影片排行
  • 示例二:使用饼图查看不同时间段的订单数分布。

    春节档影片排行

您也可以使用DataWorks提供的电子表格进行数据的展示分析,详情请参见电子表格

步骤三:数据分享

步骤一的查询结果页,单击右侧的导出 > 电子表格并分享,即可同步查询结果至电子表格,对查询结果进行更大区域的查看等操作,并通过电子表格的数据分享功能,分享该表数据至指定用户。被分享的用户可通过URL或提取码访问该结果表。您可根据需求指定相应用户是否可编辑或仅可查看该结果表。分享数据

阿里云首页 大数据开发治理平台 DataWorks 相关技术圈