为保证您可以顺利完成本次实验,请您首先确保云账号已开通E-MapReduce(简称为EMR)、数据工场DataWorks和数据存储OSS。
前提条件
背景信息
本次实验涉及的阿里云产品如下:
- E-MapReduce
- 数据工场DataWorks
- 对象存储OSS
操作步骤
- 创建EMR集群。
- 登录E-MapReduce控制台。
- 选择华东2(上海)区域,单击创建集群。说明
- 由于源数据存储在华东2(上海),建议EMR集群创建在相同的区域。
- 您可以通过一键购买和自定义购买两种方式创建EMR集群,本文以自定义购买为例。
- 在自定义购买 > 软件配置对话框中,选择集群类型为Hadoop,其它配置项默认无需修改。单击下一步:硬件配置。
- 在硬件配置对话框中,选择付费类型为按量付费,并进行网络配置和实例配置,单击下一步:基础配置。
- 在基础配置对话框中,输入集群名称,并选择密钥对,单击下一步:确定。EMR默认选项不开启挂载公网,创建集群后只能通过内网访问EMR集群。本次实验的Workshop操作中不涉及挂载公网,直接单击挂载公网说明对话框中的继续下一步即可。如果您需要公网访问,请进入ECS控制台挂载EIP。
- 在确认对话框中,确认订单无误后,勾选《E-MapReduce服务条款》,单击创建。
- 初始化集群。购买成功后,即可进入集群管理页面进行查看,集群初始化需要几分钟的时间。
- 集群初始化成功后,单击顶部菜单栏中的数据开发。
- 在数据开发页面,单击新建项目。
- 在新建项目对话框中,输入项目名称和项目描述。说明 请使用主账号创建项目,该项目用于关联DataWorks工作空间。
- 单击创建。
- 创建DataWorks工作空间。说明 因本实验提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。
- 鼠标悬停至EMR控制台左上角的
图标,单击产品与服务 > 大数据(数加) > DataWorks。
- 在左侧导航栏,单击工作空间列表。
- 在工作空间列表页面,鼠标悬停至左上角的地域,单击需要创建工作空间的地域。
- 单击创建工作空间,进行基本配置,单击下一步。
分类 参数 描述 基本信息 工作空间名称 工作空间名称的长度需要在3~27个字符,以字母开头,且只能包含字母下划线和数字。 显示名 显示名不能超过27个字符,只能字母、中文开头,仅包含中文、字母、下划线和数字。 模式 包括简单模式和标准模式,本文以创建简单模式的工作空间为例。 描述 对创建的工作空间进行简单描述。 高级设置 能下载select结果 设置是否允许下载数据开发中查询的数据结果。 - 在选择引擎对话框中,选中E-MapReduce引擎,单击下一步。DataWorks已正式商用,如果该地域没有开通,您需要首先开通正式商用服务。
- 在引擎详情对话框中,配置各项参数。
参数 描述 实例显示名称 自定义实例名称。 Access ID 已经授权可以访问EMR集群的账号的AccessKey ID。 Access Key 已经授权可以访问EMR集群的账号的AccessKey Secret。 EmrClusterID 集群ID,从EMR端获取。 集群ID 当前集群创建者的用户ID。 项目ID 当前集群下的项目ID。 YARN资源队列 当前集群下的队列名称。如果无特殊需求,请输入default。 Endpoint EMR的Endpoint,从EMR端获取。 - 配置完成后,单击创建工作空间。
- 鼠标悬停至EMR控制台左上角的
- 购买OSS并创建Bucket。
在文档使用中是否遇到以下问题
更多建议
匿名提交