环境准备

为保证您可以顺利完成本次教程,您需要准备教程所需的MaxCompute引擎、DataWorks工作空间,并做好相关的环境配置。本文为您介绍进行本次实验所需的必要环境。

前提条件

步骤一:购买开通云产品

本次实验涉及的阿里云产品如下,您可参考以下内容准备合适的云产品:

说明

如果您已有满足环境要求的云产品,也可不新开通,直接使用已有的云产品进行操作。

云产品

环境要求

DataWorks

  • 版本要求:

    • 仅操作体验MaxCompute引擎相关操作:基础版

    • 体验DataWorks智能建模功能;操作体验MaxCompute、Hologres、E-MapReduce引擎中的任意一个引擎:标准版

    • 同时操作体验MaxCompute、Hologres、E-MapReduce引擎:专业版

  • 地域要求:华东2(上海)。

    本实验提供的数据资源都在华东2(上海),建议您使用华东2(上海)地域的云产品,避免后续操作时出现网络不可达的情况。

MaxCompute

地域要求:华东2(上海)。

本实验提供的数据资源都在华东2(上海),建议您使用华东2(上海)地域的云产品,避免后续操作时出现网络不可达的情况。

本实验在后续的实验操作中,还有部分引申能力介绍和操作演示,可能会涉及到其他云产品,例如Hologres、E-MapReduce、Quick BI等,您可按需开通跟随实验操作,如果不操作也可不开通对应的云产品,不影响实验操作的主流程。

步骤二:创建DataWorks工作空间

说明

因本实验提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。

  1. 登录DataWorks控制台

  2. 单击左侧导航栏的工作空间,进入到工作空间列表页面。

  3. 选择顶部所在地域后,单击创建工作空间

  4. 创建工作空间面板,配置工作空间信息。

    1. 配置信息。

      分类

      参数

      描述

      基本信息

      工作空间名称

      工作空间的名称。本文示例:retail_e_commerce_2 (由于MaxCompute Project Name需要全局唯一,名称若被占用请及时更换)。

      显示名

      工作空间在控制台的显示名称,本文示例:零售电子商务2

      描述

      工作空间的描述信息。

      高级设置

      生产、开发环境隔离

      本文示例选择标准模式(开放和生产隔离)。

      • 开发环境MaxCompute项目名称:retail_e_commerce_2_dev

      • 生产环境MaxCompute项目名称:retail_e_commerce_2

      说明

      DataWorks的工作空间分为简单模式标准模式

      • 简单模式:指一个DataWorks工作空间对应一个引擎项目,无法设置开发和生产环境,只能进行简单的数据开发,无法对数据开发流程以及表权限进行严格控制。

      • 标准模式:指一个DataWorks工作空间对应两个引擎项目,可以设置开发和生产两种环境,提升代码开发规范,并能够对表权限进行严格控制,禁止随意操作生产环境的表,保证生产表的数据安全。

      详情请参见必读:简单模式和标准模式的区别

      空间管理员

      定义该工作空间的管理员。

      默认当前登录账号为该工作空间的管理员。您也可自行添加工作空间中的其他成员为管理员,协同管理该工作空间。空间管理员可为工作空间添加空间成员,详情请参见添加工作空间成员

      阿里云资源组

      选择阿里云资源管理中创建的资源组,默认选择默认资源组

      若您的公司购买了多种阿里云资源,则可通过资源管理创建资源组进行云资源分组,并为资源组设置管理员,通过分组独立管理资源组内的所有资源。

      重要

      此处选择的资源组是在阿里云账号下进行资源分组管理的一种机制,帮助您解决单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行所需使用的资源组为两个概念,请注意区分。

      默认资源组配置

      DataWorks任务运行所需的资源组。

    2. 单击创建工作空间,创建工作空间完成。

步骤三:创建MaxCompute数据源

本示例创建的是一个标准模式的DataWorks工作空间,对应两个MaxCompute项目,一个生产环境和一个开发环境,以下为您介绍在本实验中创建MaxCompute数据源时的配置要点:

环境

参数

说明

生产环境

MaxCompute项目名称:retail_e_commerce_2。

在未指定项目名的情况下,生产运维中心默认访问生产项目。

MaxCompute访问者身份:阿里云主账号。

生产运维中心默认使用该身份访问。默认值为阿里云主账号,支持修改为阿里云子账号或阿里云RAM角色。

开发环境

MaxCompute项目名称:retail_e_commerce_2_dev。

在未指定项目名的情况下,DataStudio和开发运维中心默认访问开发项目。

MaxCompute访问者身份:任务执行者。

DataStudio和数据分析SQL查询默认使用该身份访问。不可修改。

重要

开启MaxCompute项目存储加密后,该项目将无法运行PAI、Hologres任务;如需运行PAI、Hologres任务,请提交工单申请关闭存储加密功能。

创建MaxCompute数据源的操作详情请参见创建MaxCompute数据源

您还可以根据需要创建Hologres数据源(可选)、注册E-MapReduce集群(可选),操作详情请参见创建Hologres数据源注册EMR集群至DataWorks

完成创建数据源后,您还需要将数据源绑定至数据开发,后续您才可以创建对应引擎的DataWorks数据开发节点,开发并运行对应引擎的计算任务。

权限规划(可选)

本实验中使用主账号进行操作,是最大权限。您在实际使用DataWorks过程中,可以参考以下文档进行账号权限管控: