为保证您可以顺利完成本次教程,您需要准备教程所需的MaxCompute引擎、DataWorks工作空间,并做好相关的环境配置。本文为您介绍进行本次实验所需的必要环境。
前提条件
步骤一:购买开通云产品
本次实验涉及的阿里云产品如下,您可参考以下内容准备合适的云产品:
如果您已有满足环境要求的云产品,也可不新开通,直接使用已有的云产品进行操作。
云产品 | 环境要求 |
DataWorks |
|
MaxCompute | 地域要求:华东2(上海)。 本实验提供的数据资源都在华东2(上海),建议您使用华东2(上海)地域的云产品,避免后续操作时出现网络不可达的情况。 |
本实验在后续的实验操作中,还有部分引申能力介绍和操作演示,可能会涉及到其他云产品,例如Hologres、E-MapReduce、Quick BI等,您可按需开通跟随实验操作,如果不操作也可不开通对应的云产品,不影响实验操作的主流程。
步骤二:创建DataWorks工作空间
因本实验提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。
登录DataWorks控制台。
单击左侧导航栏的工作空间,进入到工作空间列表页面。
选择顶部所在地域后,单击创建工作空间。
在创建工作空间面板,配置工作空间信息。
配置信息。
分类
参数
描述
基本信息
工作空间名称
工作空间的名称。本文示例:retail_e_commerce_2 (由于MaxCompute Project Name需要全局唯一,名称若被占用请及时更换)。
显示名
工作空间在控制台的显示名称,本文示例:零售电子商务2。
描述
工作空间的描述信息。
高级设置
生产、开发环境隔离
本文示例选择标准模式(开放和生产隔离)。
开发环境MaxCompute项目名称:retail_e_commerce_2_dev。
生产环境MaxCompute项目名称:retail_e_commerce_2。
说明DataWorks的工作空间分为简单模式和标准模式:
简单模式:指一个DataWorks工作空间对应一个引擎项目,无法设置开发和生产环境,只能进行简单的数据开发,无法对数据开发流程以及表权限进行严格控制。
标准模式:指一个DataWorks工作空间对应两个引擎项目,可以设置开发和生产两种环境,提升代码开发规范,并能够对表权限进行严格控制,禁止随意操作生产环境的表,保证生产表的数据安全。
详情请参见必读:简单模式和标准模式的区别。
空间管理员
定义该工作空间的管理员。
默认当前登录账号为该工作空间的管理员。您也可自行添加工作空间中的其他成员为管理员,协同管理该工作空间。空间管理员可为工作空间添加空间成员,详情请参见添加工作空间成员。
阿里云资源组
选择阿里云资源管理中创建的资源组,默认选择默认资源组。
若您的公司购买了多种阿里云资源,则可通过资源管理创建资源组进行云资源分组,并为资源组设置管理员,通过分组独立管理资源组内的所有资源。
重要此处选择的资源组是在阿里云账号下进行资源分组管理的一种机制,帮助您解决单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行所需使用的资源组为两个概念,请注意区分。
默认资源组配置
DataWorks任务运行所需的资源组。
单击创建工作空间,创建工作空间完成。
步骤三:创建MaxCompute数据源
本示例创建的是一个标准模式的DataWorks工作空间,对应两个MaxCompute项目,一个生产环境和一个开发环境,以下为您介绍在本实验中创建MaxCompute数据源时的配置要点:
环境 | 参数 | 说明 |
生产环境 | MaxCompute项目名称:retail_e_commerce_2。 | 在未指定项目名的情况下,生产运维中心默认访问生产项目。 |
MaxCompute访问者身份:阿里云主账号。 | 生产运维中心默认使用该身份访问。默认值为阿里云主账号,支持修改为阿里云子账号或阿里云RAM角色。 | |
开发环境 | MaxCompute项目名称:retail_e_commerce_2_dev。 | 在未指定项目名的情况下,DataStudio和开发运维中心默认访问开发项目。 |
MaxCompute访问者身份:任务执行者。 | DataStudio和数据分析SQL查询默认使用该身份访问。不可修改。 |
开启MaxCompute项目存储加密后,该项目将无法运行PAI、Hologres任务;如需运行PAI、Hologres任务,请提交工单申请关闭存储加密功能。
创建MaxCompute数据源的操作详情请参见创建MaxCompute数据源。
您还可以根据需要创建Hologres数据源(可选)、注册E-MapReduce集群(可选),操作详情请参见创建Hologres数据源和注册EMR集群至DataWorks。
完成创建数据源后,您还需要将数据源绑定至数据开发,后续您才可以创建对应引擎的DataWorks数据开发节点,开发并运行对应引擎的计算任务。
权限规划(可选)
本实验中使用主账号进行操作,是最大权限。您在实际使用DataWorks过程中,可以参考以下文档进行账号权限管控:
DataWorks:用户、角色与权限概述相关内容,请参见用户、角色与权限概述。
MaxCompute:权限概述相关内容,请参见权限概述。