大数据AI公共数据集分析-试用教程-试用中心-阿里云

dide

手动配置

教程简介

阿里云DataWorks基于多种大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更多建模、集成、开发、治理等全链路的数据能力可前往官方文档进行查看。

我能学到什么

熟悉DataWorks的基础操作界面，如登录控制台、创建数据源、进入子功能模块页面。
学习如何在DataWorks进行简单的大数据分析操作，了解DataWorks的数据分析能力。

操作难度	低
所需时间	30分钟
使用的阿里云产品	DataWorks：一站式大数据开发与治理平台，创建数据源并在数据开发绑定数据源后可在DataWorks上开发调度对应引擎的数据开发治理任务。 MaxCompute：适用于数据分析场景的企业级SaaS模式云数据仓库，为海量数据提供丰富的计算和存储能力。
所需费用	DataWorks：产品版本：阿里云为您提供了免费的基础版DataWorks。增强分析：阿里云为您提供了免费的使用额度，超出额度后将收取相应费用。计费详情请参见增强分析计费说明。 MaxCompute：阿里云免费试用为您提供一定额度的免费MaxCompute资源包，您可使用该资源包免费试用本教程。如果您的操作超出了免费资源包的额度，则需收取相应的费用。计费详情请参见MaxCompute计费概述。

准备环境和资源

开始教程前，请按以下步骤准备环境和资源：

开通大数据开发治理平台DataWorks。
1. 访问阿里云免费试用。单击页面右上方的登录/注册按钮，并根据页面提示完成账号登录（已有阿里云账号）、账号注册（尚无阿里云账号）或实名认证（根据试用产品要求完成个人实名认证或企业实名认证）。
2. 成功登录后，即可进入申请免费试用DataWorks页面，单击大数据开发治理平台 DataWorks产品的立即试用。
3. 在弹出的购买试用DataWorks产品的面板上选择开通地域为华东2（上海），勾选服务协议后单击确认订单并支付。
准备MaxCompute环境。
- 本教程还需使用MaxCompute产品，您也可以在免费试用中申请免费额度的MaxCompute资源包进行本教程的操作，申请操作请前往申请免费试用MaxCompute页面，MaxCompute免费资源包的支持地域及免费额度介绍请参见MaxCompute新用户免费试用额度。
  【说明】：如果您此前已申请过MaxCompute的免费试用，可登录MaxCompute控制台后，查看华东2（上海）地域是否已开通，如果界面提示上海地域还未开通，您可单击欢迎界面的立即开通MaxCompute进行开通。
- 如果您不符合免费使用MaxCompute规则，您可以开通按量计费版本的MaxCompute，计费详情请参见MaxCompute计费概述。

创建工作空间并创建数据源

创建DataWorks工作空间。

登录DataWorks控制台，单击左侧导航栏的工作空间列表，选择工作空间地域为华东2（上海）后，单击创建工作空间。在创建工作空间面板，配置工作空间信息后单击提交。其中核心配置参数如表所示，其他参数可自定义配置或保持默认值即可。

参数

说明

工作空间名称

可自定义工作空间名称。由于工作空间名称需要全局唯一，如果后续操作时提示名称已存在，可更换名称。

本案例设置工作空间名称为doc_test_santie001。

生产、开发环境隔离

本教程选择：是。即将开发和生产隔离。

【扩展知识】

DataWorks的工作空间分为简单模式和标准模式：

简单模式：指一个DataWorks工作空间对应一个引擎项目，无法设置开发和生产环境，只能进行简单的数据开发，无法对数据开发流程以及表权限进行强控制。
标准模式：指一个DataWorks工作空间对应两个引擎项目，可以设置开发和生产两种环境，提升代码开发规范，并能够对表权限进行严格控制，禁止随意操作生产环境的表，保证生产表的数据安全。

详情请参见必读：简单模式和标准模式的区别。

创建MaxCompute数据源。

登录DataWorks控制台，在左上角选择地域，本教程使用的地域为华东2（上海）。单击左侧导航工作空间列表，在工作空间列表页面找到需要创建MaxCompute数据源项目的工作空间，本教程使用的是工作空间为默认工作空间，点击操作列管理，进入管理中心页面。
在管理中心页面，单击左侧导航数据源 > 数据源列表后，在页面上单击新增数据源，然后在弹窗内选择MaxCompute数据源，配置MaxCompute数据源详情请参见创建MaxCompute数据源。
完成配置后单击完成创建，完成数据源的增加。

配置基础信息：

参数	说明
数据源名称	自定义。由于资源显示名称需要全局唯一，如果后续操作时提示名称已存在，可更换名称。本案例中设置资源显示名称为odps_first。
地域	MaxCompute项目所在地域。说明若选择的MaxCompute项目与当前工作空间不在同一地域，则将MaxCompute项目添加为数据源后，该数据源不支持作为工作空间的计算引擎，即不支持在数据开发（DataStudio）、运维中心使用，仅用于数据集成模块进行数据同步。
MaxCompute项目名称	选择需将指定地域下哪一个MaxCompute项目添加为当前工作空间的数据源。说明如果未保有MaxCompute项目，请根据提示信息创建项目。创建方法详情请参见创建MaxCompute项目。
默认访问身份	定义在当前工作空间下，用什么身份访问该数据源。开发环境：当前仅支持使用执行者身份访问。生产环境：支持使用阿里云主账号、阿里云RAM用户（即子账号）、阿里云RAM角色访问。说明生产环境下默认访问身份选择相关知识的详细介绍，请参见创建MaxCompute数据源。

测试资源组连通性。
您需根据数据源后续的用途，在连接配置区域对应资源组类型后，测试所需资源组的连通性。若资源组与数据源无法连通，则相应数据源任务将无法正常执行。
说明
数据源创建成功后平台会进行访问身份授权，即将访问身份账号添加至MaxCompute项目中，并为该身份映射MaxCompute对应的权限。在授权完成前，连通性测试可能会产生连通无权限报错，该场景下，保存数据源后，您需稍作等待。
单击完成创建。

完成MaxCompute数据源后，您还需要在数据开发中绑定MaxCompute数据源，然后才可以在DataWorks上使用MaxCompute数据源开始后续的数据分析操作了。具体操作，请参见开发前准备：绑定数据源或集群。

数据分析：阿里电商公共数据

通过本步骤您将体验DataWorks的数据分析的基础能力，除了阿里电商公共数据之外，DataWorks还为您提供了Github等其他公共数据，您可以根据实际情况使用其他数据进行数据分析功能体验。

重要

体验各个数据集的数据分析任务时，也会一样占用MaxCompute资源，请您务必评估好资源使用量，避免产生额外的费用。

登录并进入DataWorks数据分析页面。
首次登录时界面会为您展示大数据基础服务使用声明，您可阅读后勾选服务协议并单击确认，即可进入数据分析页面。
在欢迎页面的阿里电商数据集模块，单击前往分析，选择MaxCompute引擎，打开默认的临时SQL文件。
运行阿里电商数据集的数据分析SQL文件。
1. 单击SQL文件右上角数据源配置，确认数据源工作空间为上述步骤中创建的工作空间，引擎类型为MaxCompute，数据源为odps_first，然后单击保存。
2. 在SQL文件的顶部单击运行按钮，在弹出的成本预估页面中单击运行，开始运行阿里电商数据集的数据分析任务。
  当数据分析任务运行完成后，您可在下面结果页面看到查询结果。
对查询结果进行简单可视化分析。
您可在查询结果页面单击，DataWorks的SQL分析为您提供了简单的可视化图标功能，您可在此处进行简单的可视化分析。

（可选）数据分析：Github事件公共数据

您也可以对其他公共数据进行数据分析操作，以下以Github时间公共数据为例。大量开发人员在GitHub上进行开源项目的开发工作，并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息，并开放其中的公开事件，包括加星标、提交代码等。

登录并进入DataWorks数据分析页面。单击左侧导航中的公共数据>科技教育>Github事件数据集，单击查看详情按钮，打开Github事件数据集介绍页面，单击Top10获星标项目排行榜后的前往分析，选择MaxCompute引擎。
在打开的临时文件中的右上角选择工作空间为上述步骤创建的空间，引擎为MaxCompute，数据源为odps_first，保存后单击运行，根据界面提示确认大概所需成本后继续单击运行，当分析任务运行完成后，您可以在结果页面查看运行结果。
运行完成后，您也可以在结果页面进行简单的可视化分析，操作与上述步骤一致，这里不再赘述。

（可选）数据分析：自定义数据集

您也可以在DataWorks数据分析中创建新的SQL文件，对公共数据集中的数据自行编写查询分析语句，以下以淘宝广告数据集为例，为您示例自定义数据分析SQL语句分析公共数据集的操作。

登录并进入DataWorks数据分析页面。
1. 单击左侧导航中的公共数据>数字商业>淘宝购物数据集，单击数据集commerce_taobao_shopping，打开数据集介绍页面，您可以在明细信息中查看表的字段信息。
2. 单击顶部的生成SQL语句，选择MaxCompute数据源，进入一个SQL文件。同上述步骤类似，您可以配置好数据源后单击顶部的运行按钮，查看当前公共数据集的数据详情。
单击顶部SQL文件页签旁的，新增一个临时SQL文件。在临时SQL文件中输入SET odps.namespace.schema = true;---打开MaxCompute三层模型后，继续编写自定义查询语句，完成后单击运行。
```
SET odps.namespace.schema = true;---打开MaxCompute三层模型
SELECT  user_id , item_id 
FROM    bigdata_public_dataset.commerce.commerce_taobao_shopping
LIMIT   20
;
```
自定义SQL运行完成后，您可以在结果页面查看查询数据明细，并进行简单可视化分析。

清理及后续

清理

完成教程后，请及时清理测试数据和试用资源。

MaxCompute资源清理。
本教程使用了MaxCompute计算引擎，在体验完成本教程后，如果后续您不再使用的话，请及时将MaxCompute资源释放，否则MaxCompute会继续计费。释放操作请参见资源释放。
DataWorks资源清理。
本教程使用了免费的基础版DataWorks的SQL分析模块，基础版DataWorks的SQL分析任务运行结束后不会收取其他费用，如果您使用了DataWorks的其他功能模块，使用了DataWorks的资源组运行了其他周期任务，请及时将DataWorks周期任务暂停，避免造成资源组的浪费。
您可以进入运维中心的周期任务运维页面暂停周期任务，操作详情请参见查看并管理周期任务。

总结

常用知识点

问题1：公共数据集是否存储在DataWorks中？（单选题）

正确答案是否。DataWorks工作空间可以创建数据源，进行各类高效的数据分析等操作，DataWorks本身不存储和计算数据。

问题2：DataWorks的数据分析是否支持对公共数据集进行自定义分析？（单选题）

不支持
支持

正确答案是支持。DataWorks为您提供了多种公共数据集，也为您内置了默认的查询分析SQL文件，同时开支持您自定义分析，进行自定义分析是，务必在自定义SQL前加上SET odps.namespace.schema = true;---打开MaxCompute三层模型。

操作手册

【试用教程】大数据AI公共数据集分析